RNA-Seq Variantenaufruf-Pipeline: Von Transkript-Reads zu validierten Mutationen

Kurze Übersicht

01Datenqualitätskontrolle und Vorverarbeitung 02Spleißbewusste Ausrichtung und Lesevorbereitung 03Variantenerkennung mit RNA-spezifischen Parametern 04Filtern von RNA-spezifischen Artefakten 05Validierung und Benchmarking von RNA-abgeleiteten Varianten 06Fazit

RNA-Seq Die Variantenbestimmung ist eine effektive Methode zur Auffindung genetischer Veränderungen in Regionen des Genoms, die aktiv transkribiert werden. Dieses Papier skizziert einen klaren Arbeitsablauf zur Identifizierung von Keimbahn- und somatischen Mutationen in RNA-Sequenzierungsdaten. Es umfasst wichtige Schritte wie Qualitätskontrolle, Ausrichtung, Variantenentdeckung, Filterung und abschließende Validierung. Wir untersuchen moderne rechnergestützte Werkzeuge und methodische Best Practices, die spezifische Herausforderungen im Zusammenhang mit RNA angehen, einschließlich Spleißstellen, RNA-Bearbeitung und allelspezifischer Expression. Darüber hinaus diskutieren wir Strategien zur Unterscheidung echter genetischer Varianten von technischen Artefakten und RNA-Verarbeitungsevents, um die Genauigkeit und Zuverlässigkeit der auf Transkriptomen basierenden Variantenidentifikation für Anwendungen in der Präzisionsmedizin zu verbessern.

Figure 1 alt. Flow diagram illustrating the sequential steps of a variant calling bioinformatics pipeline. (Mark T W Ebbert, 2016) Abbildung 1. Das vereinfachte schematische Bioinformatik-Pipeline der Variantenaufrufanalyse. (Stepanka Zverinova, 2021)

Datenqualitätskontrolle und -vorverarbeitung

Bevor man sich aufmacht zu VariantaufrufDie Sicherstellung hochwertiger Eingabedaten ist entscheidend. RNA-Seq-Datensätze enthalten häufig technische Artefakte und Verzerrungen, die durch strenge Qualitätskontrollen und Vorverarbeitungsschritte angegangen werden müssen.

Qualitätsbewertung mit FastQC

FastQC stellt das Goldstandard-Tool für die erste Qualitätsbewertung von Sequenzierungsdaten dar. Bei der Anwendung auf RNA-Seq-Lesungen erstellt FastQC umfassende Berichte, die potenzielle Probleme hervorheben, darunter:

BasisqualitätswertePhred-Qualitätswerte sinken typischerweise zu den Enden der Reads. Werte unter 20 (1% Fehlerquote) verdienen Aufmerksamkeit.
SequenzinhaltUngewöhnliche Muster in der Nukleotidverteilung können auf Adapterkontamination oder technische Verzerrungen hinweisen.
GC-GehaltAbweichungen von der erwarteten GC-Verteilung deuten auf mögliche Kontamination oder Biases bei der Bibliotheksvorbereitung hin.
SequenzduplizierungÜbermäßige Duplikation kann auf PCR-Artefakte oder eine sehr hohe Expression spezifischer Transkripte hinweisen.
Überrepräsentierte SequenzenHäufig vorkommende Sequenzen stellen oft Adapter, Primer oder hochabundante Transkripte wie rRNA dar.
K-mer InhaltUngewöhnliche k-mer-Verteilungen können auf Verzerrungen bei der Bibliotheksvorbereitung oder Sequenzierung hinweisen.

Ein typischer FastQC-Befehl für die RNA-Seq-Analyse sieht folgendermaßen aus:

bash

fastqc -o Ausgabeverzeichnis Eingangsprobe_R1.fastq.gz Eingangsprobe_R2.fastq.gz

Adapter- und Qualitätsbeschneidung mit Trimmomatic

Nach der Qualitätsbewertung umfasst die Vorverarbeitung typischerweise das Kürzen von niedrigqualitativen Basen und das Entfernen von Adaptersequenzen. Trimmomatic ist in diesen Aufgaben besonders gut und bietet eine Vielzahl von Optionen, die speziell für RNA-Seq-Daten geeignet sind:

bash

trimmomatic PE -phred33 input_R1.fastq.gz input_R2.fastq.gz \

output_R1_paar.fastq.gz output_R1_unpaar.fastq.gz \

output_R2_paar.fastq.gz output_R2_unpaar.fastq.gz \

ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 FÜHREND:3 ENDE:3 \

SLIDINGWINDOW:4:15 MINLEN:36

Die Parameter in diesem Befehl erfüllen mehrere wichtige Funktionen:

ILLUMINACLIPEntfernt Adaptersequenzen, die in TruSeq3-PE.fa angegeben sind.
VORNE/NACHHINTENSchneidet niedrigqualitative Basen (unter Qualität 3) am Anfang und Ende der Reads ab.
GLEITFENSTERScans liest mit einem 4-Basen-Fenster und schneidet, wenn die durchschnittliche Qualität unter 15 fällt.
MINLEN: Verwirft Lesevorgänge, die nach dem Trimmen kürzer als 36 Basen sind.

RNA-Seq-spezifische Überlegungen während der Vorverarbeitung umfassen:

rRNA-DepletionRibosomale RNA kann RNA-Seq-Bibliotheken dominieren. Werkzeuge wie SortMeRNA können rRNA-Reads identifizieren und entfernen.
Poly-A-SchwänzePoly(A)-Schwänze in mRNA-Molekülen können zu Regionen mit niedriger Komplexität führen, die gekürzt werden sollten.
RNA-AbbauDegradierte RNA-Proben können eine 3'-Bias aufweisen, was zusätzliche Qualitätsprüfungen erforderlich macht.

Technische Duplikatbearbeitung

Im Gegensatz zu DNA-Seq-Daten enthält RNA-Seq-Daten sowohl PCR-Duplikate (technische Artefakte) als auch natürliche Duplikate (von hoch exprimierten Genen). Für die Variantenbestimmung bleibt das Markieren von Duplikaten wichtig, aber eine vollständige Entfernung könnte wertvolle Signale von hoch exprimierten Genen beseitigen. Werkzeuge wie Picard MarkDuplicates können Duplikate markieren und gleichzeitig die Informationen für die nachgelagerte Analyse erhalten:

bash

java -jar picard.jar MarkDuplicates \

I=input.bam \

O=markierte_duplikate.bam \

M=markierte_duplikat_metriken.txt

Hochwertige vorverarbeitete Daten bilden die Grundlage für eine genaue Variantenbestimmung. Der nächste Schritt besteht darin, diese verarbeiteten Reads an das Referenzgenom auszurichten, wobei die einzigartigen Eigenschaften von RNA-Seq-Daten berücksichtigt werden.

Figure 2 alt. Comparative density plot showing execution time distribution between SAMTools and Picard tools for duplicate read removal in RNA-Seq data processing. (Mark T W Ebbert, 2016) Abbildung 2. Dichteplot der Ausführungszeit für die Duplikatentfernung sowohl von SAMTools als auch von Picard. (Mark T W Ebbert, 2016)

Dienste, an denen Sie interessiert sein könnten

Mehr erfahren

RNA-Seq Variantenbestimmung: Zentrale Herausforderungen und aufkommende Lösungen

Spleißbewusste Ausrichtung und Lesevorbereitung

Spleißbewusste Ausrichtung

Die genaue Ausrichtung von RNA-seq-Reads auf ein Referenzgenom ist ein kritischer Schritt bei der Variantenbestimmung. Im Gegensatz zu DNA-Sequenzierung Reads, RNA-seq-Reads stammen von reifen mRNA-Transkripten, bei denen Introns herausgeschnitten wurden. Daher sind Standard-DNA-Aligner für RNA-seq-Daten nicht geeignet, da sie keine Reads verarbeiten können, die Exon-Exon-Grenzen überschreiten.

Splice-bewusste Alignierer wie STAR (Spliced Transcripts Alignment to a Reference) und HISAT2 (Hierarchical Indexing for Spliced Alignment of Transcripts) sind speziell dafür entwickelt worden, die Komplexität von RNA-seq-Daten zu bewältigen. Diese Alignierer können Reads, die Splice-Stellen überbrücken, abbilden, indem sie diese aufteilen und jedes Segment an verschiedene Exons anpassen.

STAR ist besonders beliebt geworden wegen seiner Geschwindigkeit und Genauigkeit. Es erstellt einen Suffix-Array-Index des Referenzgenoms und verwendet einen Algorithmus, der effizient maximale abbildbare Präfixe jedes Reads findet. Für eine typische RNA-seq-Variantenerkennungspipeline kann STAR mit den folgenden Parametern ausgeführt werden:

bash

STAR--genomeDir /pfad/zum/genom_index \

--readFilesIn sample_R1.fastq.gz sample_R2.fastq.gz \

--readFilesCommand zcat \

--outFileNamePrefix Beispiel_ \

--outSAMtype BAM SortiertNachKoordinate \

--twopassMode Basis \

--outFilterMultimapNmax 20 \

--alignSJoverhangMin 8 \

--alignSJDBoverhangMin 1 \

--outFilterMismatchNmax 999 \

--outFilterMismatchNoverReadLmax 0,04 \

--alignIntronMin 20 \

--alignIntronMax 1000000 \

--alignMatesGapMax 1000000

Der "Zwei-Pass"-Mapping-Ansatz ist besonders vorteilhaft für die Variantenbestimmung, da er zunächst die Spleißstellen aus den Daten identifiziert und dann diese Informationen nutzt, um die endgültige Ausrichtung zu steuern.

Verarbeitung für Variantenaufrufe lesen

Nach der Ausrichtung sind mehrere zusätzliche Verarbeitungsschritte erforderlich, um die Daten für die Variantenbestimmung vorzubereiten:

1. Duplikate kennzeichnenDuplikate, die durch PCR-Amplifikation entstehen, können zu falsch-positiven Variantenaufrufen führen. Werkzeuge wie Picards MarkDuplicates identifizieren und kennzeichnen diese Duplikate.
2. Aufteilen von Reads an N CIGAR-OperationenRNA-seq-Aligner stellen Reads, die Introns überspannen, mit der N-Operation im CIGAR-String dar. Das GATK SplitNCigarReads-Tool teilt diese Reads in mehrere Ausrichtungen auf und stellt sicher, dass nur exone Segmente für die Variantenbestimmung verwendet werden.
3. Neuberechnung des Basisqualitätswerts (BQSR)Dieser Schritt passt die Basisqualitätswerte an, um systematische Fehler in der Sequenzierung zu berücksichtigen. Für RNA-seq-Daten wird BQSR unter Verwendung bekannter Variantenstandorte als Trainingssatz durchgeführt.

Da RNA-Aligner andere Konventionen als DNA-Aligner haben, ist es notwendig, Ausrichtungen, die Introns überspannen, für Variantencaller wie HaplotypeCaller umzuformatieren. Der Schritt SplitNCigarReads teilt Reads mit N im CIGAR in mehrere ergänzende Ausrichtungen und schneidet nicht übereinstimmende Überhänge hart ab. Standardmäßig werden auch die Mapping-Qualitäten für gute Ausrichtungen neu zugewiesen, um den DNA-Konventionen zu entsprechen.

Ein typischer GATK-Befehl zur Verarbeitung von RNA-seq-Ausrichtungen könnte folgendermaßen aussehen:

bash

gatk SplitNCigarReads \

-R referenz.fasta \

-I input.bam \

-O split.bam

gatk BaseRecalibrator \

-R referenz.fasta \

-I split.bam \

--bekannte-orte bekannte_varianten.vcf \

-O recal_data.tabelle

gatk ApplyBQSR \

-R reference.fasta \

-I split.bam \

--bqsr-recal-file recal_data.tabelle \

-O neu kalibriert.bam

Diese Vorverarbeitungsschritte sind entscheidend für eine genaue Variantenbestimmung, da sie helfen, Artefakte und Verzerrungen, die in RNA-seq-Daten vorhanden sind, zu reduzieren. Eine ordnungsgemäße Ausrichtung und Verarbeitung der RNA-seq-Reads stellt sicher, dass die in den nachfolgenden Schritten identifizierten Varianten echte genetische Unterschiede und keine technischen Artefakte sind.

Variantenerkennung mit RNA-spezifischen Parametern

Die Variantenbestimmung aus RNA-seq-Daten erfordert spezialisierte Ansätze, die die einzigartigen Eigenschaften von transkriptomischen Daten berücksichtigen. Es wurden mehrere Werkzeuge für diesen Zweck entwickelt oder angepasst, wobei der Genome Analysis Toolkit (GATK) HaplotypeCaller und DeepVariant als führende Optionen hervorgehoben werden.

GATK HaplotypeCaller für RNA-seq

GATK HaplotypeCaller verwendet einen lokalen de novo-Assemblierungsansatz zur Variantenbestimmung, der besonders vorteilhaft für RNA-seq-Daten ist, bei denen die Ausrichtungen um Spleißstellen komplex sein können. Das am Broad Institute entwickelte Genome Analysis Toolkit (GATK) bietet hochmoderne Pipelines zur Entdeckung und Genotypisierung von Keimbahn- und somatischen Varianten.

Bei der Verwendung für RNA-seq-Daten erfordert HaplotypeCaller spezifische Parameter, um die Eigenschaften von transkriptomischen Daten zu optimieren:

bash

gatk HaplotypeCaller \

-R referenz.fasta \

-Ich habe neu kalibriert.bam \

-O varianten.vcf \

--nicht-weiche-beschnittene-Basen-verwenden \

-stand-call-conf 20.0 \

--dbsnp dbSnp.vcf

Der Parameter --dont-use-soft-clipped-bases ist besonders wichtig für RNA-seq-Daten, da er verhindert, dass der Caller weich zugeschnittene Teile von Reads verwendet, die möglicherweise Ausrichtungen über Spleißstellen hinweg darstellen, anstatt echte Variationen.

DeepVariant für RNA-seq

In letzter Zeit haben auf Deep Learning basierende Ansätze vielversprechende Ergebnisse bei der Variantenbestimmung aus RNA-seq-Daten gezeigt. DeepVariant, ein auf Deep Learning basierender Varianten-Caller, wurde erweitert, um die einzigartigen Herausforderungen, die RNA-seq-Daten mit sich bringen, zu lernen und zu berücksichtigen. Das DeepVariant RNA-seq-Modell erzeugt hochgenaue Variantenaufrufe aus RNA-Sequenzierungsdaten und übertrifft bestehende Ansätze wie Platypus und GATK.

DeepVariant verfolgt einen grundlegend anderen Ansatz zur Variantenbestimmung im Vergleich zu traditionellen Methoden. Es wandelt ausgerichtete Reads in Bilder um und verwendet ein konvolutionales neuronales Netzwerk, um Varianten zu identifizieren, ähnlich wie bei der Bilderkennung. Dieser Ansatz ermöglicht es dem Modell, komplexe Muster in den Daten zu lernen, die mit regelbasierten Algorithmen möglicherweise schwer zu erfassen sind.

In Benchmark-Vergleichen hat DeepVariant eine überlegene Leistung bei der Variantenbestimmung gezeigt. Im Vergleich mit GATK HaplotypeCaller erzielte DeepVariant ein höheres Verhältnis von Transitionen zu Transversionen (Ti/Tv) (2,38 ± 0,02) als GATK (2,04 ± 0,07), was darauf hindeutet, dass DeepVariant verhältnismäßig mehr wahre Positive identifizierte. Die Übereinstimmungsrate zwischen den beiden Pipelines betrug 88,73 %.

Somatische Variantenbestimmung in RNA-seq

Während die oben genannten Methoden hauptsächlich für die Identifizierung von Keimbahnvarianten entwickelt wurden, können RNA-seq-Daten auch zur Identifizierung somatischer Mutationen verwendet werden, insbesondere in der Krebsforschung. Für die Identifizierung somatischer Varianten können Werkzeuge wie MuTect2 (Teil von GATK) oder Strelka2 für RNA-seq-Daten angepasst werden.

Allerdings steht die somatische Variantenbestimmung aus RNA-seq vor zusätzlichen Herausforderungen, einschließlich:

1. Unterscheidung somatischer Mutationen von RNA-Bearbeitungsereignissen
2. Umgang mit allelspezifischer Expression, die die Variantenallelfrequenzen verzerren kann
3. Berücksichtigung der Tumorheterogenität und der Anwesenheit mehrerer Zellpopulationen

Trotz dieser Herausforderungen kann RNA-seq wertvolle Einblicke in die exprimierte mutationslandschaft von Tumoren bieten und DNA-basierte Ansätze ergänzen.

In den letzten Jahren gab es ein zunehmendes Interesse an der Entwicklung gemeinsamer Anrufansätze für RNA-seq-Daten, ähnlich wie sie häufig für die DNA-Sequenzierung verwendet werden. Die vollständig validierte GATK-Pipeline zur Variantenanrufung bei RNA-seq-Daten war traditionell ein pro-Proben-Workflow, der keine gemeinsame Genotypisierungsanalyse beinhaltete. Jüngste Bemühungen konzentrierten sich darauf, moderne GATK-Befehle aus verschiedenen Workflows zu kombinieren, um Varianten in RNA-seq-Proben mithilfe gemeinsamer Genotypisierung zu identifizieren.

Figure 3 alt. Diagram illustrating various types of DNA variants including SNPs, insertions, deletions, and structural variations with their relative frequencies and genomic impacts. ( Stepanka Zverinova, 2021) Abbildung 3. Vielfalt der DNA-Variantenarten. (Stepanka Zverinova, 2021)

Filtern von RNA-spezifischen Artefakten

Selbst mit spezialisierten Methoden zur Variantenbestimmung kann RNA-seq-Daten viele falsch positive Variantenaufrufe erzeugen, aufgrund der inhärenten Komplexität der transkriptomischen Daten. Daher ist eine strenge Filterung unerlässlich, um echte Varianten von Artefakten zu unterscheiden.

Häufige Quellen von RNA-seq-Artefakten

Mehrere Faktoren können zu falsch positiven Variantenaufrufen in RNA-seq-Daten führen:

1. RNA-BearbeitungAdenosin-zu-Inosin (A-zu-I, gelesen als A-zu-G) und Cytidin-zu-Uridin (C-zu-U, gelesen als C-zu-T) Bearbeitungen sind häufige posttranskriptionale Modifikationen, die fälschlicherweise als genomische Varianten interpretiert werden können.
2. Ausrichtungsfehler an SpleißstellenReads, die über Spleißstellen hinweggehen, können falsch ausgerichtet sein, was zu falschen Variantenaufrufen in der Nähe der Ränder von Exons führt.
3. Sequenzspezifische FehlerBestimmte Sequenzkontexte sind anfällig für höhere Fehlerraten während der Sequenzierung, was zu systematischen Fehlanpassungen führt.
4. RücktranskriptionsfehlerDie Umwandlung von RNA in cDNA während der Bibliotheksvorbereitung kann Fehler einführen, die als Varianten erscheinen.
5. Niedrigkomplexe RegionenWiederholte oder niedrigkomplexe Regionen haben häufig mehrdeutige Ausrichtungen, was zu falschen Variantenaufrufen führt.

Filterstrategien

Um Artefakte aus RNA-seq-Variantenausgaben effektiv herauszufiltern, können mehrere Strategien angewendet werden. Dazu gehört das Ausschließen von Varianten in RNA-Bearbeitungsstellen, das Filtern von Varianten in Regionen mit niedriger Komplexität von kodierenden Sequenzen und das Entfernen häufiger genetischer Varianten mithilfe von Datenbanken wie 1000 Genomes, gnomAD und dbSNP.

Ein umfassender Filteransatz könnte Folgendes umfassen:

1. Filtern von RNA-BearbeitungsstellenBekannte RNA-Editing-Stellen können aus Datenbanken wie REDIportal abgerufen und von Variantenaufrufen ausgeschlossen werden.
2. Ausdrucksbasiertes FilternVarianten in Genen mit sehr niedrigen Expressionsniveaus sind eher Artefakte. Das Festlegen eines Mindestschwellenwerts für die Transkriptexpression (z. B. TPM > 1) kann helfen, solche Varianten herauszufiltern.
3. Filterung der Variantenallelfrequenz (VAF)Aufgrund der allelspezifischen Expression folgen echte Varianten möglicherweise nicht den erwarteten Allelfrequenzen von 0,5 (heterozygot) oder 1,0 (homozygot), die in der DNA-Sequenzierung zu sehen sind. Sehr niedrige VAF-Werte (z. B. < 0,2) in gut exprimierten Genen können jedoch auf Artefakte hinweisen.
4. Strand-Bias-FilterungEchte Varianten sollten sowohl auf dem Vorwärts- als auch auf dem Rückwärtsstrang beobachtet werden. Eine starke Strang-Bias kann auf Sequenzierungs- oder Alignierungsartefakte hinweisen.
5. Abstand von Splice-Junction-FilterungVarianten, die innerhalb von wenigen Basen zu Spleißstellen aufgerufen werden, sind oft Artefakte. Das Ausschließen von Varianten innerhalb von 3-5 Basen zu bekannten Spleißstellen kann die Genauigkeit verbessern.

Beispielbefehl für GATK VariantFiltration:

bash

gatk VariantFiltration \

-R reference.fasta \

-V Varianten.vcf \

-O gefilterte_varianten.vcf \

--filter-name "StrandBias" \

--filter-Ausdruck "FS > 30,0" \

--filter-name "QualByDepth" \

--filter-Ausdruck "QD < 2.0" \

--filter-name "ReadPosRankSum" \

--filter-expression "ReadPosRankSum < -8.0" \

--filter-name "ClusteredEvents" \

--cluster-window-größe 35 \

--cluster-größe 3

Bei der Variantenselektion von RNA-seq in GATK werden häufig zusätzliche Parameter verwendet, um gruppierte Ereignisse herauszufiltern, die die Ergebnisdateien überladen könnten, wie zum Beispiel der Clustergrößenparameter, der die Anzahl der SNPs angibt, die einen Cluster bilden (Standardwert: 3).

Neuere Ansätze haben auch maschinelles Lernen genutzt, um die Variantenselektion in RNA-seq-Daten zu verbessern. Diese Methoden können komplexe Muster lernen, die zwischen echten Varianten und Artefakten unterscheiden, und könnten somit regelbasierten Filteransätzen überlegen sein.

Figure 4 alt. Genomic visualization showing the Eip63E gene region with identified start-gained SNP mutation in the w1118; iso-2; iso-3 Drosophila strain. ( Pablo Cingolani, 2012) Abbildung 4. Analyse des durch Eip63E gewonnenen SNP in w1118; iso-2; iso-3. (Pablo Cingolani, 2012)

Validierung und Benchmarking von RNA-abgeleiteten Varianten

Die Validierung von Varianten, die aus RNA-seq-Daten abgeleitet wurden, ist entscheidend, um die Zuverlässigkeit der Ergebnisse sicherzustellen. Es stehen mehrere Ansätze zur Validierung zur Verfügung, die von orthogonalen Sequenzierungsmethoden bis hin zu Benchmarking gegen Referenzdatensätze reichen.

Kreuzvalidierung mit abgestimmten DNA-Sequenzierungsdaten

Der Goldstandard zur Validierung von RNA-seq-Varianten ist der Vergleich mit passenden DNA-Sequenzierungsdaten derselben Person. In klinischen Sequenzierungsstudien werden Varianten typischerweise gefiltert, um wiederkehrende Artefakte, die mit der Ausrichtung von Kurzlesungen verbunden sind, zu entfernen, und können durch manuelle Überprüfung der Sequenzausrichtungen visuell bestätigt werden.

Beim Vergleich von RNA-seq- und DNA-seq-Varianten können mehrere Muster auftreten:

1. Übereinstimmende VariantenVarianten, die sowohl in RNA als auch in DNA gefunden werden, sind wahrscheinlich echte Keimbahnvarianten.
2. RNA-spezifische VariantenVarianten, die in RNA, aber nicht in DNA vorhanden sind, können RNA-Bearbeitungsereignisse oder somatische Mutationen in hoch exprimierten Genen darstellen.
3. DNA-spezifische VariantenVarianten, die in der DNA, aber nicht in der RNA vorhanden sind, können in Genen auftreten, die im sequenzierten Gewebe nicht exprimiert werden, oder sie können einer allelspezifischen Expression unterliegen.

Die Übereinstimmungsrate zwischen RNA-seq- und DNA-seq-Varianten kann je nach Expressionsniveau variieren. Hoch exprimierte Gene zeigen typischerweise eine höhere Übereinstimmung, während niedrig exprimierte Gene aufgrund unzureichender Abdeckung in RNA-seq-Daten mehr Diskrepanzen aufweisen können.

Benchmarking mit synthetischen Datensätzen

Während die oben genannten Methoden hauptsächlich für die Identifizierung von Keimbahnvarianten entwickelt wurden, können RNA-seq-Daten auch verwendet werden, um somatische Mutationen zu identifizieren, insbesondere in der Krebsforschung. Für die Identifizierung somatischer Varianten können Werkzeuge wie MuTect2 (Teil von GATK) oder Strelka2 für RNA-seq-Daten angepasst werden.

Allerdings steht die somatische Variantenbestimmung aus RNA-seq vor zusätzlichen Herausforderungen, einschließlich:

1. Unterscheidung somatischer Mutationen von RNA-Bearbeitungsereignissen
2. Umgang mit allelspezifischer Expression, die die Häufigkeiten der Variantenallele verzerren kann
3. Berücksichtigung der Tumorheterogenität und der Anwesenheit mehrerer Zellpopulationen

In Abwesenheit von übereinstimmenden DNA-Sequenzierungsdaten können synthetische oder Referenzdatensätze zur Bewertung von Variantenaufruf-Pipelines verwendet werden. Das Sequencing Quality Control 2 (SEQC2) Projekt, das von der FDA geleitet wird, entwickelte Referenzmaterialien, die von Laboren für eine standardisierte Bewertung von NGS-Technologien geteilt werden können. SEQC2 entwickelte synthetische Kontrollen, die eine eindeutige Darstellung schwieriger Sequenzen, einschließlich komplexer Varianten, bieten, die zur Bewertung der Leistung verschiedener Sequenzierungstechnologien verwendet werden können.

Diese synthetischen Datensätze bieten wahre Variantenaufrufe, gegen die RNA-seq-Variantenaufruf-Pipelines bewertet werden können. Häufig verwendete Metriken für das Benchmarking sind:

1. Empfindlichkeit (Rückruf)Der Anteil der echten Varianten, die korrekt identifiziert werden.
2. PräzisionDer Anteil der erkannten Varianten, die echte Varianten sind.
3. F1-ScoreDas harmonische Mittel von Präzision und Rückruf, das eine ausgewogene Maßnahme für die Leistung bietet.

Benchmarking-Studien haben gezeigt, dass das DeepVariant RNA-seq-Modell den höchsten medianen F1-Score in verschiedenen genomischen Regionen erzielt und insgesamt in CDS-Regionen am besten abschneidet. Darüber hinaus haben Vergleiche der Laufzeitleistung gezeigt, dass DeepVariant RNA-seq-Modelle schneller sind als GATK, während sie eine höhere Genauigkeit beibehalten.

Integration mit funktionalen Informationen

Ein weiterer Ansatz zur Validierung besteht darin, Variantenaufrufe mit funktionalen Informationen zu integrieren. Zum Beispiel sind Varianten, von denen vorhergesagt wird, dass sie einen signifikanten funktionalen Einfluss haben (z. B. Nonsense-Mutationen, Frameshift-Mutationen) und in Genen auftreten, die mit dem untersuchten Phänotyp assoziiert sind, wahrscheinlicher echt und biologisch relevant.

Ähnlich können Varianten, die in mehreren Proben konsistente Muster zeigen oder in spezifischen biologischen Bedingungen angereichert sind, ein höheres Vertrauen aufweisen. Beispielsweise können wiederkehrende Mutationen in Krebsproben Treibermutationen darstellen, selbst wenn sie nicht durch DNA-Sequenzierung validiert sind.

Visualisierung und manuelle Überprüfung

Trotz Fortschritten bei automatisierten Filter- und Validierungsmethoden bleibt die manuelle Überprüfung von Variantenaufrufen ein wichtiger Schritt in vielen Studien, insbesondere bei klinisch relevanten Varianten. Werkzeuge wie der Integrative Genomics Viewer (IGV) ermöglichen es Forschern, ausgerichtete Reads, die jede Variante unterstützen, zu visualisieren, was hilft, potenzielle Artefakte oder Fehlanpassungen zu identifizieren.

Bei der Überprüfung von RNA-seq-Varianten in IGV sollte besondere Aufmerksamkeit auf Folgendes gelegt werden:

1. LeseverteilungVarianten sollten durch mehrere unabhängige Lesungen unterstützt werden.
2. Position innerhalb der LesungenVarianten, die überwiegend am Ende von Reads auftreten, können Artefakte sein.
3. SpleißstellenVarianten in der Nähe von Spleißstellen sollten sorgfältig geprüft werden.
4. BasisqualitätVarianten sollten durch hochwertige Basisaufrufe unterstützt werden.

Die visuelle Bestätigung durch manuelle Überprüfung der Sequenzausrichtungen bleibt ein wichtiger Validierungsschritt in klinischen Sequenzierungsstudien, bei denen die Genauigkeit der Variantenaufrufe von größter Bedeutung ist.

Fazit

RNA-Seq-Variantenerkennung bietet einen wertvollen Ansatz zur Identifizierung genetischer Varianten im transkribierten Teil des Genoms. Obwohl sie im Vergleich zur DNA-Sequenzierung einzigartige Herausforderungen mit sich bringt, haben Fortschritte in bioinformatischen Methoden und Werkzeugen die Genauigkeit und Zuverlässigkeit der Variantenerkennung aus RNA-Seq-Daten erheblich verbessert.

Die in diesem Artikel beschriebene Pipeline – von der Qualitätskontrolle und Vorverarbeitung über die Ausrichtung, Variantenbestimmung, Filterung bis hin zur Validierung – bietet einen umfassenden Rahmen zur Extraktion hochkonfidenter Variantenaufrufe aus RNA-seq-Daten. Durch die Nutzung RNA-spezifischer Parameter und Filterstrategien können Forscher echte Varianten effektiv von technischen Artefakten unterscheiden.

Jüngste Entwicklungen, insbesondere die Anwendung von Deep-Learning-Ansätzen wie DeepVariant, haben die Grenzen dessen, was mit RNA-seq-Variantenerkennung möglich ist, verschoben. Das RNA-seq-Modell von DeepVariant hat eine überlegene Leistung im Vergleich zu traditionellen Methoden gezeigt und hebt das Potenzial von maschinellem Lernen hervor, um die komplexen Herausforderungen zu bewältigen, die damit verbunden sind. transkriptomische Daten.

Da sich die Sequenzierungstechnologien weiterentwickeln und die rechnerischen Methoden verbessern, wird die RNA-seq-Variantenerkennung wahrscheinlich ein zunehmend wertvolles Werkzeug in der Genomforschung werden, das Einblicke in die funktionalen Konsequenzen genetischer Variationen und deren Rolle in der menschlichen Gesundheit und Krankheit bietet.

Referenzen:

Zverinova, S., & Guryev, V. (2022). Variantenaufruf: Überlegungen, Praktiken und Entwicklungen. Menschliche Mutation, 43(8), 976–985. Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Bitte geben Sie den Text, den Sie übersetzen möchten, direkt hier ein.
Ebbert, M. T., Wadsworth, M. E., Staley, L. A., Hoyt, K. L., Pickett, B., Miller, J., Duce, J., Alzheimer-Krankheit Neuroimaging Initiative, Kauwe, J. S., & Ridge, P. G. (2016). Bewertung der Notwendigkeit der Entfernung von PCR-Duplikaten aus Daten der Next-Generation-Sequenzierung und ein Vergleich der Ansätze. BMC Bioinformatik, 17 Ergänzung 7(Suppl 7), 239. Es tut mir leid, aber ich kann keine Inhalte von externen Links übersetzen. Wenn Sie den Text hier einfügen, helfe ich Ihnen gerne bei der Übersetzung.
Cingolani, P., Platts, A., Wang, leL., Coon, M., Nguyen, T., Wang, L., Land, S. J., Lu, X., & Ruden, D. M. (2012). Ein Programm zur Annotation und Vorhersage der Auswirkungen von Einzel-Nukleotid-Polymorphismen, SnpEff: SNPs im Genom des Drosophila melanogaster Stammes w1118; iso-2; iso-3. Fliegen, 6(2), 80–92. Es tut mir leid, ich kann den Inhalt von URLs nicht abrufen oder übersetzen. Bitte geben Sie den Text ein, den Sie übersetzen möchten.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen