RNA-Seq Die Variantenbestimmung ist eine effektive Methode zur Auffindung genetischer Veränderungen in Regionen des Genoms, die aktiv transkribiert werden. Dieses Papier skizziert einen klaren Arbeitsablauf zur Identifizierung von Keimbahn- und somatischen Mutationen in RNA-Sequenzierungsdaten. Es umfasst wichtige Schritte wie Qualitätskontrolle, Ausrichtung, Variantenentdeckung, Filterung und abschließende Validierung. Wir untersuchen moderne rechnergestützte Werkzeuge und methodische Best Practices, die spezifische Herausforderungen im Zusammenhang mit RNA angehen, einschließlich Spleißstellen, RNA-Bearbeitung und allelspezifischer Expression. Darüber hinaus diskutieren wir Strategien zur Unterscheidung echter genetischer Varianten von technischen Artefakten und RNA-Verarbeitungsevents, um die Genauigkeit und Zuverlässigkeit der auf Transkriptomen basierenden Variantenidentifikation für Anwendungen in der Präzisionsmedizin zu verbessern.
Abbildung 1. Das vereinfachte schematische Bioinformatik-Pipeline der Variantenaufrufanalyse. (Stepanka Zverinova, 2021)
Bevor man sich aufmacht zu VariantaufrufDie Sicherstellung hochwertiger Eingabedaten ist entscheidend. RNA-Seq-Datensätze enthalten häufig technische Artefakte und Verzerrungen, die durch strenge Qualitätskontrollen und Vorverarbeitungsschritte angegangen werden müssen.
FastQC stellt das Goldstandard-Tool für die erste Qualitätsbewertung von Sequenzierungsdaten dar. Bei der Anwendung auf RNA-Seq-Lesungen erstellt FastQC umfassende Berichte, die potenzielle Probleme hervorheben, darunter:
Ein typischer FastQC-Befehl für die RNA-Seq-Analyse sieht folgendermaßen aus:
bash
fastqc -o Ausgabeverzeichnis Eingangsprobe_R1.fastq.gz Eingangsprobe_R2.fastq.gz
Nach der Qualitätsbewertung umfasst die Vorverarbeitung typischerweise das Kürzen von niedrigqualitativen Basen und das Entfernen von Adaptersequenzen. Trimmomatic ist in diesen Aufgaben besonders gut und bietet eine Vielzahl von Optionen, die speziell für RNA-Seq-Daten geeignet sind:
bash
trimmomatic PE -phred33 input_R1.fastq.gz input_R2.fastq.gz \
output_R1_paar.fastq.gz output_R1_unpaar.fastq.gz \
output_R2_paar.fastq.gz output_R2_unpaar.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 FÜHREND:3 ENDE:3 \
SLIDINGWINDOW:4:15 MINLEN:36
Die Parameter in diesem Befehl erfüllen mehrere wichtige Funktionen:
RNA-Seq-spezifische Überlegungen während der Vorverarbeitung umfassen:
Im Gegensatz zu DNA-Seq-Daten enthält RNA-Seq-Daten sowohl PCR-Duplikate (technische Artefakte) als auch natürliche Duplikate (von hoch exprimierten Genen). Für die Variantenbestimmung bleibt das Markieren von Duplikaten wichtig, aber eine vollständige Entfernung könnte wertvolle Signale von hoch exprimierten Genen beseitigen. Werkzeuge wie Picard MarkDuplicates können Duplikate markieren und gleichzeitig die Informationen für die nachgelagerte Analyse erhalten:
bash
java -jar picard.jar MarkDuplicates \
I=input.bam \
O=markierte_duplikate.bam \
M=markierte_duplikat_metriken.txt
Hochwertige vorverarbeitete Daten bilden die Grundlage für eine genaue Variantenbestimmung. Der nächste Schritt besteht darin, diese verarbeiteten Reads an das Referenzgenom auszurichten, wobei die einzigartigen Eigenschaften von RNA-Seq-Daten berücksichtigt werden.
Abbildung 2. Dichteplot der Ausführungszeit für die Duplikatentfernung sowohl von SAMTools als auch von Picard. (Mark T W Ebbert, 2016)
Dienste, an denen Sie interessiert sein könnten
Mehr erfahren
Die genaue Ausrichtung von RNA-seq-Reads auf ein Referenzgenom ist ein kritischer Schritt bei der Variantenbestimmung. Im Gegensatz zu DNA-Sequenzierung Reads, RNA-seq-Reads stammen von reifen mRNA-Transkripten, bei denen Introns herausgeschnitten wurden. Daher sind Standard-DNA-Aligner für RNA-seq-Daten nicht geeignet, da sie keine Reads verarbeiten können, die Exon-Exon-Grenzen überschreiten.
Splice-bewusste Alignierer wie STAR (Spliced Transcripts Alignment to a Reference) und HISAT2 (Hierarchical Indexing for Spliced Alignment of Transcripts) sind speziell dafür entwickelt worden, die Komplexität von RNA-seq-Daten zu bewältigen. Diese Alignierer können Reads, die Splice-Stellen überbrücken, abbilden, indem sie diese aufteilen und jedes Segment an verschiedene Exons anpassen.
STAR ist besonders beliebt geworden wegen seiner Geschwindigkeit und Genauigkeit. Es erstellt einen Suffix-Array-Index des Referenzgenoms und verwendet einen Algorithmus, der effizient maximale abbildbare Präfixe jedes Reads findet. Für eine typische RNA-seq-Variantenerkennungspipeline kann STAR mit den folgenden Parametern ausgeführt werden:
bash
STAR--genomeDir /pfad/zum/genom_index \
--readFilesIn sample_R1.fastq.gz sample_R2.fastq.gz \
--readFilesCommand zcat \
--outFileNamePrefix Beispiel_ \
--outSAMtype BAM SortiertNachKoordinate \
--twopassMode Basis \
--outFilterMultimapNmax 20 \
--alignSJoverhangMin 8 \
--alignSJDBoverhangMin 1 \
--outFilterMismatchNmax 999 \
--outFilterMismatchNoverReadLmax 0,04 \
--alignIntronMin 20 \
--alignIntronMax 1000000 \
--alignMatesGapMax 1000000
Der "Zwei-Pass"-Mapping-Ansatz ist besonders vorteilhaft für die Variantenbestimmung, da er zunächst die Spleißstellen aus den Daten identifiziert und dann diese Informationen nutzt, um die endgültige Ausrichtung zu steuern.
Nach der Ausrichtung sind mehrere zusätzliche Verarbeitungsschritte erforderlich, um die Daten für die Variantenbestimmung vorzubereiten:
Da RNA-Aligner andere Konventionen als DNA-Aligner haben, ist es notwendig, Ausrichtungen, die Introns überspannen, für Variantencaller wie HaplotypeCaller umzuformatieren. Der Schritt SplitNCigarReads teilt Reads mit N im CIGAR in mehrere ergänzende Ausrichtungen und schneidet nicht übereinstimmende Überhänge hart ab. Standardmäßig werden auch die Mapping-Qualitäten für gute Ausrichtungen neu zugewiesen, um den DNA-Konventionen zu entsprechen.
Ein typischer GATK-Befehl zur Verarbeitung von RNA-seq-Ausrichtungen könnte folgendermaßen aussehen:
bash
gatk SplitNCigarReads \
-R referenz.fasta \
-I input.bam \
-O split.bam
gatk BaseRecalibrator \
-R referenz.fasta \
-I split.bam \
--bekannte-orte bekannte_varianten.vcf \
-O recal_data.tabelle
gatk ApplyBQSR \
-R reference.fasta \
-I split.bam \
--bqsr-recal-file recal_data.tabelle \
-O neu kalibriert.bam
Diese Vorverarbeitungsschritte sind entscheidend für eine genaue Variantenbestimmung, da sie helfen, Artefakte und Verzerrungen, die in RNA-seq-Daten vorhanden sind, zu reduzieren. Eine ordnungsgemäße Ausrichtung und Verarbeitung der RNA-seq-Reads stellt sicher, dass die in den nachfolgenden Schritten identifizierten Varianten echte genetische Unterschiede und keine technischen Artefakte sind.
Die Variantenbestimmung aus RNA-seq-Daten erfordert spezialisierte Ansätze, die die einzigartigen Eigenschaften von transkriptomischen Daten berücksichtigen. Es wurden mehrere Werkzeuge für diesen Zweck entwickelt oder angepasst, wobei der Genome Analysis Toolkit (GATK) HaplotypeCaller und DeepVariant als führende Optionen hervorgehoben werden.
GATK HaplotypeCaller verwendet einen lokalen de novo-Assemblierungsansatz zur Variantenbestimmung, der besonders vorteilhaft für RNA-seq-Daten ist, bei denen die Ausrichtungen um Spleißstellen komplex sein können. Das am Broad Institute entwickelte Genome Analysis Toolkit (GATK) bietet hochmoderne Pipelines zur Entdeckung und Genotypisierung von Keimbahn- und somatischen Varianten.
Bei der Verwendung für RNA-seq-Daten erfordert HaplotypeCaller spezifische Parameter, um die Eigenschaften von transkriptomischen Daten zu optimieren:
bash
gatk HaplotypeCaller \
-R referenz.fasta \
-Ich habe neu kalibriert.bam \
-O varianten.vcf \
--nicht-weiche-beschnittene-Basen-verwenden \
-stand-call-conf 20.0 \
--dbsnp dbSnp.vcf
Der Parameter --dont-use-soft-clipped-bases ist besonders wichtig für RNA-seq-Daten, da er verhindert, dass der Caller weich zugeschnittene Teile von Reads verwendet, die möglicherweise Ausrichtungen über Spleißstellen hinweg darstellen, anstatt echte Variationen.
In letzter Zeit haben auf Deep Learning basierende Ansätze vielversprechende Ergebnisse bei der Variantenbestimmung aus RNA-seq-Daten gezeigt. DeepVariant, ein auf Deep Learning basierender Varianten-Caller, wurde erweitert, um die einzigartigen Herausforderungen, die RNA-seq-Daten mit sich bringen, zu lernen und zu berücksichtigen. Das DeepVariant RNA-seq-Modell erzeugt hochgenaue Variantenaufrufe aus RNA-Sequenzierungsdaten und übertrifft bestehende Ansätze wie Platypus und GATK.
DeepVariant verfolgt einen grundlegend anderen Ansatz zur Variantenbestimmung im Vergleich zu traditionellen Methoden. Es wandelt ausgerichtete Reads in Bilder um und verwendet ein konvolutionales neuronales Netzwerk, um Varianten zu identifizieren, ähnlich wie bei der Bilderkennung. Dieser Ansatz ermöglicht es dem Modell, komplexe Muster in den Daten zu lernen, die mit regelbasierten Algorithmen möglicherweise schwer zu erfassen sind.
In Benchmark-Vergleichen hat DeepVariant eine überlegene Leistung bei der Variantenbestimmung gezeigt. Im Vergleich mit GATK HaplotypeCaller erzielte DeepVariant ein höheres Verhältnis von Transitionen zu Transversionen (Ti/Tv) (2,38 ± 0,02) als GATK (2,04 ± 0,07), was darauf hindeutet, dass DeepVariant verhältnismäßig mehr wahre Positive identifizierte. Die Übereinstimmungsrate zwischen den beiden Pipelines betrug 88,73 %.
Während die oben genannten Methoden hauptsächlich für die Identifizierung von Keimbahnvarianten entwickelt wurden, können RNA-seq-Daten auch zur Identifizierung somatischer Mutationen verwendet werden, insbesondere in der Krebsforschung. Für die Identifizierung somatischer Varianten können Werkzeuge wie MuTect2 (Teil von GATK) oder Strelka2 für RNA-seq-Daten angepasst werden.
Allerdings steht die somatische Variantenbestimmung aus RNA-seq vor zusätzlichen Herausforderungen, einschließlich:
Trotz dieser Herausforderungen kann RNA-seq wertvolle Einblicke in die exprimierte mutationslandschaft von Tumoren bieten und DNA-basierte Ansätze ergänzen.
In den letzten Jahren gab es ein zunehmendes Interesse an der Entwicklung gemeinsamer Anrufansätze für RNA-seq-Daten, ähnlich wie sie häufig für die DNA-Sequenzierung verwendet werden. Die vollständig validierte GATK-Pipeline zur Variantenanrufung bei RNA-seq-Daten war traditionell ein pro-Proben-Workflow, der keine gemeinsame Genotypisierungsanalyse beinhaltete. Jüngste Bemühungen konzentrierten sich darauf, moderne GATK-Befehle aus verschiedenen Workflows zu kombinieren, um Varianten in RNA-seq-Proben mithilfe gemeinsamer Genotypisierung zu identifizieren.
Abbildung 3. Vielfalt der DNA-Variantenarten. (Stepanka Zverinova, 2021)
Selbst mit spezialisierten Methoden zur Variantenbestimmung kann RNA-seq-Daten viele falsch positive Variantenaufrufe erzeugen, aufgrund der inhärenten Komplexität der transkriptomischen Daten. Daher ist eine strenge Filterung unerlässlich, um echte Varianten von Artefakten zu unterscheiden.
Mehrere Faktoren können zu falsch positiven Variantenaufrufen in RNA-seq-Daten führen:
Um Artefakte aus RNA-seq-Variantenausgaben effektiv herauszufiltern, können mehrere Strategien angewendet werden. Dazu gehört das Ausschließen von Varianten in RNA-Bearbeitungsstellen, das Filtern von Varianten in Regionen mit niedriger Komplexität von kodierenden Sequenzen und das Entfernen häufiger genetischer Varianten mithilfe von Datenbanken wie 1000 Genomes, gnomAD und dbSNP.
Ein umfassender Filteransatz könnte Folgendes umfassen:
Beispielbefehl für GATK VariantFiltration:
bash
gatk VariantFiltration \
-R reference.fasta \
-V Varianten.vcf \
-O gefilterte_varianten.vcf \
--filter-name "StrandBias" \
--filter-Ausdruck "FS > 30,0" \
--filter-name "QualByDepth" \
--filter-Ausdruck "QD < 2.0" \
--filter-name "ReadPosRankSum" \
--filter-expression "ReadPosRankSum < -8.0" \
--filter-name "ClusteredEvents" \
--cluster-window-größe 35 \
--cluster-größe 3
Bei der Variantenselektion von RNA-seq in GATK werden häufig zusätzliche Parameter verwendet, um gruppierte Ereignisse herauszufiltern, die die Ergebnisdateien überladen könnten, wie zum Beispiel der Clustergrößenparameter, der die Anzahl der SNPs angibt, die einen Cluster bilden (Standardwert: 3).
Neuere Ansätze haben auch maschinelles Lernen genutzt, um die Variantenselektion in RNA-seq-Daten zu verbessern. Diese Methoden können komplexe Muster lernen, die zwischen echten Varianten und Artefakten unterscheiden, und könnten somit regelbasierten Filteransätzen überlegen sein.
Abbildung 4. Analyse des durch Eip63E gewonnenen SNP in w1118; iso-2; iso-3. (Pablo Cingolani, 2012)
Die Validierung von Varianten, die aus RNA-seq-Daten abgeleitet wurden, ist entscheidend, um die Zuverlässigkeit der Ergebnisse sicherzustellen. Es stehen mehrere Ansätze zur Validierung zur Verfügung, die von orthogonalen Sequenzierungsmethoden bis hin zu Benchmarking gegen Referenzdatensätze reichen.
Der Goldstandard zur Validierung von RNA-seq-Varianten ist der Vergleich mit passenden DNA-Sequenzierungsdaten derselben Person. In klinischen Sequenzierungsstudien werden Varianten typischerweise gefiltert, um wiederkehrende Artefakte, die mit der Ausrichtung von Kurzlesungen verbunden sind, zu entfernen, und können durch manuelle Überprüfung der Sequenzausrichtungen visuell bestätigt werden.
Beim Vergleich von RNA-seq- und DNA-seq-Varianten können mehrere Muster auftreten:
Die Übereinstimmungsrate zwischen RNA-seq- und DNA-seq-Varianten kann je nach Expressionsniveau variieren. Hoch exprimierte Gene zeigen typischerweise eine höhere Übereinstimmung, während niedrig exprimierte Gene aufgrund unzureichender Abdeckung in RNA-seq-Daten mehr Diskrepanzen aufweisen können.
Während die oben genannten Methoden hauptsächlich für die Identifizierung von Keimbahnvarianten entwickelt wurden, können RNA-seq-Daten auch verwendet werden, um somatische Mutationen zu identifizieren, insbesondere in der Krebsforschung. Für die Identifizierung somatischer Varianten können Werkzeuge wie MuTect2 (Teil von GATK) oder Strelka2 für RNA-seq-Daten angepasst werden.
Allerdings steht die somatische Variantenbestimmung aus RNA-seq vor zusätzlichen Herausforderungen, einschließlich:
In Abwesenheit von übereinstimmenden DNA-Sequenzierungsdaten können synthetische oder Referenzdatensätze zur Bewertung von Variantenaufruf-Pipelines verwendet werden. Das Sequencing Quality Control 2 (SEQC2) Projekt, das von der FDA geleitet wird, entwickelte Referenzmaterialien, die von Laboren für eine standardisierte Bewertung von NGS-Technologien geteilt werden können. SEQC2 entwickelte synthetische Kontrollen, die eine eindeutige Darstellung schwieriger Sequenzen, einschließlich komplexer Varianten, bieten, die zur Bewertung der Leistung verschiedener Sequenzierungstechnologien verwendet werden können.
Diese synthetischen Datensätze bieten wahre Variantenaufrufe, gegen die RNA-seq-Variantenaufruf-Pipelines bewertet werden können. Häufig verwendete Metriken für das Benchmarking sind:
Benchmarking-Studien haben gezeigt, dass das DeepVariant RNA-seq-Modell den höchsten medianen F1-Score in verschiedenen genomischen Regionen erzielt und insgesamt in CDS-Regionen am besten abschneidet. Darüber hinaus haben Vergleiche der Laufzeitleistung gezeigt, dass DeepVariant RNA-seq-Modelle schneller sind als GATK, während sie eine höhere Genauigkeit beibehalten.
Ein weiterer Ansatz zur Validierung besteht darin, Variantenaufrufe mit funktionalen Informationen zu integrieren. Zum Beispiel sind Varianten, von denen vorhergesagt wird, dass sie einen signifikanten funktionalen Einfluss haben (z. B. Nonsense-Mutationen, Frameshift-Mutationen) und in Genen auftreten, die mit dem untersuchten Phänotyp assoziiert sind, wahrscheinlicher echt und biologisch relevant.
Ähnlich können Varianten, die in mehreren Proben konsistente Muster zeigen oder in spezifischen biologischen Bedingungen angereichert sind, ein höheres Vertrauen aufweisen. Beispielsweise können wiederkehrende Mutationen in Krebsproben Treibermutationen darstellen, selbst wenn sie nicht durch DNA-Sequenzierung validiert sind.
Trotz Fortschritten bei automatisierten Filter- und Validierungsmethoden bleibt die manuelle Überprüfung von Variantenaufrufen ein wichtiger Schritt in vielen Studien, insbesondere bei klinisch relevanten Varianten. Werkzeuge wie der Integrative Genomics Viewer (IGV) ermöglichen es Forschern, ausgerichtete Reads, die jede Variante unterstützen, zu visualisieren, was hilft, potenzielle Artefakte oder Fehlanpassungen zu identifizieren.
Bei der Überprüfung von RNA-seq-Varianten in IGV sollte besondere Aufmerksamkeit auf Folgendes gelegt werden:
Die visuelle Bestätigung durch manuelle Überprüfung der Sequenzausrichtungen bleibt ein wichtiger Validierungsschritt in klinischen Sequenzierungsstudien, bei denen die Genauigkeit der Variantenaufrufe von größter Bedeutung ist.
RNA-Seq-Variantenerkennung bietet einen wertvollen Ansatz zur Identifizierung genetischer Varianten im transkribierten Teil des Genoms. Obwohl sie im Vergleich zur DNA-Sequenzierung einzigartige Herausforderungen mit sich bringt, haben Fortschritte in bioinformatischen Methoden und Werkzeugen die Genauigkeit und Zuverlässigkeit der Variantenerkennung aus RNA-Seq-Daten erheblich verbessert.
Die in diesem Artikel beschriebene Pipeline – von der Qualitätskontrolle und Vorverarbeitung über die Ausrichtung, Variantenbestimmung, Filterung bis hin zur Validierung – bietet einen umfassenden Rahmen zur Extraktion hochkonfidenter Variantenaufrufe aus RNA-seq-Daten. Durch die Nutzung RNA-spezifischer Parameter und Filterstrategien können Forscher echte Varianten effektiv von technischen Artefakten unterscheiden.
Jüngste Entwicklungen, insbesondere die Anwendung von Deep-Learning-Ansätzen wie DeepVariant, haben die Grenzen dessen, was mit RNA-seq-Variantenerkennung möglich ist, verschoben. Das RNA-seq-Modell von DeepVariant hat eine überlegene Leistung im Vergleich zu traditionellen Methoden gezeigt und hebt das Potenzial von maschinellem Lernen hervor, um die komplexen Herausforderungen zu bewältigen, die damit verbunden sind. transkriptomische Daten.
Da sich die Sequenzierungstechnologien weiterentwickeln und die rechnerischen Methoden verbessern, wird die RNA-seq-Variantenerkennung wahrscheinlich ein zunehmend wertvolles Werkzeug in der Genomforschung werden, das Einblicke in die funktionalen Konsequenzen genetischer Variationen und deren Rolle in der menschlichen Gesundheit und Krankheit bietet.
Referenzen: