Bioinformatik-Workflow der gesamten Exom-Sequenzierung

Überblick über WES

Die Einführung der Next-Generation-Sequenzierung (NGS) hat die Genomforschung erheblich beschleunigt, da sie Millionen bis Milliarden von Sequenzlesungen mit hoher Geschwindigkeit produziert. Derzeit verfügbare NGS-Plattformen umfassen Illumina, Ion Torrent/Life Technologies, 454/Roche, Pacific Bioscience, Nanopore und GenapSys. Sie können Lesungen mit einer Länge von 100-10.000 bp erzeugen, was eine ausreichende Abdeckung des Genoms zu geringeren Kosten ermöglicht. Angesichts der enormen Menge an Sequenzdaten, wie gehen wir am besten damit um? Und welche sind die geeignetsten rechnerischen Methoden und Analysetools zu diesem Zweck? In diesem Überblick konzentrieren wir uns auf die bioinformatische Pipeline von Whole-Exom-Sequenzierung (WES).

Exom-Sequenzierung bezieht sich auf eine genomische Analysemethodik, die das Sequenzieren der gesamten exonspezifischen Regionen eines Organismus umfasst. Dies wird erreicht, indem DNA im Exom-Bereich durch Sequenzfang oder Target-Technologie angereichert wird, gefolgt von Hochdurchsatz-Sequenzierung. Der exomische Bereich macht nur etwa 1% des Genoms aus (ungefähr 30 MB) und enthält etwa 85% der pathogenen Mutationen.

Die Mehrheit der funktionalen Variationen, die mit dem Phänotyp eines Individuums in Zusammenhang stehen, befindet sich überwiegend im exonen Bereich der Chromosomen. Für genetische Forscher, die versuchen, die Ursachen von über 6.800 seltenen Krankheiten zu ermitteln, bietet die Exom-Sequenzierung ein wertvolles Werkzeug zur Identifizierung von Einzel-Nukleotid-Varianten (SNVs), kleinen Insertionen und Deletionen (InDels) sowie seltenen primären Mutationen, die komplexe erbliche Krankheiten aufklären können.

Die bioinformatische Analyse von WES spielt eine entscheidende Rolle in der biologischen Forschung, der Erforschung genetischer Erkrankungen sowie deren Diagnose und anschließenden Behandlungen. Dies hat den wissenschaftlichen Fortschritt vorangetrieben und neue Wege zur Verbesserung der menschlichen Gesundheit geschaffen. Mit dem fortwährenden Fortschritt in der Technologie und der Verbesserung analytischer Werkzeuge steht das Potenzial der WES-Bioinformatik zur weiteren Erschließung und Verwirklichung bereit.

Bioinformatik-Workflow von WES

Sie können den Artikel über das Prinzip und den Workflow von WES lesen, um mehr über WES zu erfahren. Sie können den Artikel lesen. Prinzip und Arbeitsablauf der gesamten Exom-Sequenzierung mehr über WES zu erfahren. Der Schwerpunkt dieses Papiers liegt darauf, einen umfassenden Überblick über den bioinformatischen Analyseworkflow zu geben, der nach der Exomsequenzierung folgt. Ein typischer Workflow der WES-Analyse umfasst folgende Schritte: Qualitätskontrolle der Rohdaten, Vorverarbeitung, Sequenzausrichtung, Nachbearbeitung der Ausrichtung, Variantenaufruf, Variantenannotation sowie Variantenfiltration und -priorisierung. Diese werden im Folgenden besprochen.

A general framework of WES data analysis (Bao et al. 2014).Abbildung 1. Ein allgemeines Rahmenwerk zur Analyse von WES-Daten (Bao et al. 2014).

Qualitätskontrolle von Rohdaten

Die Generierung von Sequierungsdaten umfasst mehrere Verfahren wie DNA-Extraktion, Bibliothekskonstruktion und den Sequierungsprozess selbst. Diese Verfahren können jedoch zu Daten von unzureichender Qualität oder zu von vornherein ungültigen Daten führen, was eine gründliche Qualitätskontrolle der Rohdaten nach der Sequenzierung erforderlich macht. Die Implementierung eines strengen Qualitätsmanagements ebnet den Weg für die Produktion von hochwertigen Sequierungsdaten, die wiederum zur Optimierung nachfolgender bioinformatischer Analyseverfahren wie Sequenzalignment und Variantenerkennung beiträgt. Folglich verbessert dies sowohl die Effizienz als auch die Genauigkeit der Datenanalyse.

Sequenzdaten haben im Allgemeinen zwei gängige Standardformate: FASTQ und FASTA. FASTQ-Dateien können Phred-skalierten Basisqualitätswerte speichern, um die Sequenzqualität besser zu messen. Daher wird es allgemein als das Standardformat für NGS-Rohdaten akzeptiert. Es gibt mehrere Werkzeuge, die entwickelt wurden, um die Qualität von NGS-Rohdaten zu bewerten, wie FastQC, FastQ Screen, FASTX-Toolkit und NGS QC Toolkit.

QC-Parameter lesen:

Verteilung der Basisqualitätsbewertung
Verteilung der Sequenzqualitätswerte
Längenverteilung der Reads
GC-Gehaltverteilung
Sequenzduplikationsniveau
PCR-Amplifikationsproblem
Biasierung von k-Mers
Überrepräsentierte Sequenzen

Datenvorverarbeitung

Mit einem umfassenden QC-Bericht (der in der Regel die oben genannten Parameter umfasst) können Forscher bestimmen, ob eine Datenvorverarbeitung erforderlich ist. Die Schritte der Vorverarbeitung umfassen in der Regel das Entfernen von 3'-Endadapter, das Filtern von niedrigqualitativen oder redundanten Reads und das Trimmen unerwünschter Sequenzen. Es können mehrere Tools für die Datenvorverarbeitung verwendet werden, wie Cutadapt und Trimmomatic. PRINSEQ und QC3 können sowohl Qualitätskontrolle als auch Vorverarbeitung durchführen.

Die Datenvorverarbeitung dient nicht nur dazu, Datenrauschen zu mindern und falsch-positive Ergebnisse zu reduzieren, sondern auch dazu, nachfolgende Analyseprozesse zu optimieren. Die Vorverarbeitung umfasst zahlreiche kritische Schritte wie Qualitätskontrolle, Entfernung technischer Verunreinigungen, Filterung von Niedrigfrequenzsequenzen und Eliminierung von Redundanzen. Das endgültige Ziel besteht darin, die vorverarbeiteten Daten in ein Format zu konvertieren, das für die anschließende Analyse geeignet ist, und zwar in Formate wie FASTQ und BAM. Dies ebnet den Weg für eine detailliertere bioinformatische Analyse.

Sequenzalignment

Durch die Durchführung von Sequenzalignierungen ist es möglich, den genomischen Standort jedes Fragments innerhalb der Exom-Sequenzierungsdaten festzustellen. Dies erweist sich als unbezahlbar für die Identifizierung von Exonregionen, der Genstruktur und funktionalen Elementen. Darüber hinaus spielt die Sequenzalignment eine entscheidende Rolle in verschiedenen Aspekten, wie der Erkennung von Varianten, der Erleichterung der Genexpressionsanalyse und der Ermöglichung der Datenqualitätsbewertung.

Die Auswahl eines geeigneten Alignierungswerkzeugs wird notwendig und hängt hauptsächlich von den experimentellen Designs und Datentypen ab. Häufig verwendete Werkzeuge zu diesem Zweck sind Bowtie2, BWA und STAR. Für DNA-Sequenzierungsdaten ist Bowtie2 oder BWA die typische Wahl, während STAR häufig für RNA-Sequenzierungsdaten eingesetzt wird.

Es gibt Algorithmen zur Zuordnung von kurzen Reads, einschließlich der Burrows-Wheeler-Transformation (BWT) und des Smith-Waterman (SW) Algorithmus. Bowtie2 und BWA sind zwei beliebte Werkzeuge zur Ausrichtung kurzer Reads, die den BWT (Burrows-Wheeler-Transformation) Algorithmus implementieren. MOSAIK, SHRiMP2 und Novoalign sind wichtige Werkzeuge zur Ausrichtung kurzer Reads, die Implementierungen des SW-Algorithmus mit erhöhter Genauigkeit darstellen. Darüber hinaus ermöglichen Multithreading und MPI-Implementierungen eine signifikante Reduzierung der Laufzeit. Von allen oben genannten Werkzeugen sticht Bowtie2 durch eine schnelle Laufzeit, hohe Sensitivität und hohe Genauigkeit hervor.

Nachbearbeitung der Ausrichtung

Nach der Ausrichtung der Reads werden die ausgerichteten Reads nachbearbeitet, um unerwünschte Reads oder Ausrichtungen zu entfernen, wie z. B. Reads, die eine definierte Größe überschreiten, und PCR-Duplikate. Werkzeuge wie Picard MarkDuplicates und SAMtools können PCR-Duplikate von echten DNA-Materialien unterscheiden. Im Anschluss besteht der zweite Schritt darin, die Qualität der lückenhaften Ausrichtung durch Indel-Neuausrichtung zu verbessern. Einige Ausrichtungsprogramme (wie Novoalign) und Variantenaufrufer (wie GATK HaplotypeCaller) beinhalten die Verbesserung der Indel-Ausrichtung. Nach der Indel-Neuausrichtung wird BQSR (BaseRecalibrator aus der GATK-Suite) empfohlen, um die Genauigkeit der Basisqualitätswerte vor dem Variantenaufruf zu verbessern.

Die Nachbearbeitung nach der Ausrichtung identifiziert und filtert effektiv niedrigqualitative Sequenzfragmente heraus, wodurch die Datenbenutzbarkeit verbessert und die rechnerische Belastung in nachfolgenden Analysen verringert wird. Durch die Optimierung dieser Nachbearbeitung kann die Zuverlässigkeit und Konsistenz der Daten maximiert werden. Dieser entscheidende Schritt stellt sicher, dass die Ergebnisse nachfolgender bioinformatischer Analysen glaubwürdiger sind.

Variant-Identifizierung

Die Variantenbestimmung ist ein entscheidender Prozess zur Identifizierung von Einzel-Nukleotid-Polymorphismen (SNPs), Insertion-Deletion-Mutationen (Indels) und anderen genomischen Variationen, die erheblich zur Entdeckung potenziell pathogener Variationen beitragen, die möglicherweise mit Krankheiten in Verbindung stehen. Durch die Variantenbestimmung können die Genotypen von Proben genau bewertet werden, wobei sowohl heterozygote als auch homozygote Mutationen kategorisiert werden. Die Ergebnisse der Variantenbestimmung dienen daher als grundlegende Basis für die anschließende Variantenannotation und -filterung. Somit sind die Präzision und Vollständigkeit der Variantenbestimmung entscheidend für den gesamten analytischen Prozess.

Spezialisierte Software zur Variantenbestimmung, wie GATK, Samtools und VarScan, wird in den Sequenzierungsdaten nach der Ausrichtung zur Variantenbestimmung eingesetzt. Diese Softwareanwendungen erkennen Unterschiede zwischen der Probe und dem Referenzgenom, indem sie die Basisinformationen an jedem Locus statistisch auswerten und anschließend eine Menge von Kandidatenvarianten generieren.

Die Variantenanalyse ist wichtig, um verschiedene Arten von genomischen Varianten zu erkennen, wie SNPs, SNVs, Indels, CNVs und größere SVs, insbesondere in Krebsstudien. Es ist entscheidend, somatische von Keimbahnvarianten zu unterscheiden. Somatische Varianten treten nur in somatischen Zellen auf und sind gewebespezifisch, während Keimbahnvarianten erbliche Mutationen sind, die in den Keimzellen vorkommen und mit der Familiengeschichte des Patienten verbunden sind. Die Variantenbestimmung wird verwendet, um SNPs und kurze Indels in Exomproben zu identifizieren. Die gängigen Variantenbestimmungstools sind in Tabelle 1 aufgeführt. Einige Studien haben diese Variantenbestimmer evaluiert. Liu et al. empfahlen GATK, und Bao et al. empfahlen eine Kombination aus Novoalign und FreeBayes.

Tabelle 1. Die gängigen Variantenaufrufwerkzeuge.

Variant-Calling Werkzeuge
Keimbahn-Variantenerkennung GATK, SAMtools, FreeBayes, Atlas2
Somatische Variantenidentifikation GATK, SAMtools mpileup, Issac Variant-Caller, deepSNV, Strelka, MutationSeq, MutTect, QuadGT, Seurat, Shimmer, SolSNP, jointSNVMix, SomaticSniper, VarScan2, Virmid

Variantenannotation

Nachdem Varianten identifiziert wurden, müssen sie annotiert werden, um ein besseres Verständnis der Krankheitsentstehung zu ermöglichen. Die Variantenannotation umfasst in der Regel Informationen über genomische Koordinaten, Genposition und Mutationsart. Viele Studien konzentrieren sich auf die nicht-synonymen SNVs und Indels im Exom, die 85 % der bekannten krankheitsverursachenden Mutationen bei Mendel’schen Erkrankungen und eine große Anzahl von Mutationen bei komplexen Krankheiten ausmachen.

Primär umfasst die Mutationsannotation die Transformation der genomischen Koordinaten, die Annotation des Mutationstyps, die Vorhersage der funktionalen Auswirkungen sowie die Annotation von Genen und Signalwegen. Die Umwandlung der genomischen Koordinaten einer Mutation auf ein Referenzgenom gewährleistet die Genauigkeit und Vergleichbarkeit der Annotationsergebnisse.

Die identifizierten Mutationen benötigen eine weitere Annotation nach Typ, die Einzelne Nukleotid-Polymorphismen (SNPs), Insertionen/Löschungen (Indels), Kopienzahlvariationen (CNVs) und strukturelle Variationen umfassen kann. Die Bestimmung der Gene und relevanten Wege, in denen eine Mutation gefunden wird, beinhaltet die Annotation der Auswirkungen der Mutation auf das Gen, Klassifikationen der Genfunktion, regulatorische Elemente und mehr. Der Vergleich der Annotationsergebnisse mit öffentlichen Datenbanken wie ClinVar, dbSNP und OMIM hilft dabei, bekannte Mutationsinformationen zu sammeln. In Kombination mit Informationen aus klinischen Datenbanken kann man die klinische Bedeutung einer Mutation weiter bewerten.

Neben der grundlegenden Annotation gibt es viele Datenbanken, die zusätzliche Informationen über die Varianten bereitstellen können. ANNOVAR ist ein leistungsstarkes Tool, das über 4.000 öffentliche Datenbanken zur Variantenannotation kombiniert, wie dbSNP, 1000 Genomes und die NCI-60 menschlichen Tumorzelllinien-Panel-Exom-Sequenzierungsdaten. Dieses Tool kann zur Vorhersage der minoren Allelfrequenz (MAF), zur Vorhersage von schädlichen Varianten, zur Angabe der Erhaltung des mutierten Standorts, als experimenteller Nachweis für krankheitsverursachende Varianten und zur Berechnung von Vorhersagescores aus GERP, PolyPhen und anderen Programmen verwendet werden. Weitere gängige Datenbanken sind OncoMD, OMIM, SNPedia, 1000 Genomes, bdSNP und persönliche Genomvarianten.

Die Variantenannotation, durch die Assoziierung von Variationen mit bekannten Genen, funktionalen Bereichen und Informationen zu Signalwegen, unterstützt die Interpretation der funktionalen Auswirkungen von Variationen, wie z.B. Veränderungen der Proteinstruktur oder -funktion. Darüber hinaus können Variantenannotationen Variationen filtern, um Kandidaten für pathogene Variationen zu identifizieren, wodurch der Analyseumfang reduziert und die Priorisierung potenziell krankheitsbezogener Variationen geleitet wird. Eine tiefere biologische Interpretation durch die Annotation von Funktion und Auswirkungen von Variationen hilft, die Beziehung zwischen der Variante und dem Phänotyp zu verstehen.

Variantenfiltration und -priorisierung

WES kann Tausende von Variantenkandidaten generieren. Die Anzahl kann durch die Priorisierung von Varianten reduziert werden, um eine kurze, aber priorisierte Liste von Mutationen für weitere experimentelle Validierungen zu erstellen. Die Priorisierung von Varianten umfasst drei Schritte: 1) Entfernung weniger zuverlässiger Variantenaufrufe; 2) Depletion häufiger Varianten (aufgrund der Annahme, dass seltene Varianten eher Krankheiten verursachen); 3) Priorisierung von Varianten in Bezug auf die Krankheit unter Verwendung von entdeckungsbasierten und hypothesenbasierten Ansätzen. Zu den verfügbaren Werkzeugen für die Variantenfiltration und -priorisierung gehören VAAST2, VarSifer, KGGseq, PLINK/SEQ, SPRING, GUI-Tool, Gnome und Ingenuity Variant Analysis.

Die Variantenannotation dient dem Zweck, identifizierte Mutationen mit bekannten Genen, funktionalen Regionen und Signalwegen in Verbindung zu bringen. Dadurch können wir die funktionalen Auswirkungen der Variationen untersuchen, zum Beispiel, ob sie Veränderungen in der Proteinstruktur oder -funktion hervorrufen. Die Variantenannotation ermöglicht es, krankheitsverursachende Mutationen aus dem Pool der identifizierten Varianten herauszufiltern, wodurch der Umfang der Analyse eingegrenzt wird. Dieser Schritt hilft, potenziell krankheitsrelevante Mutationen zu priorisieren. Eine detaillierte Untersuchung der Funktion und Auswirkungen dieser annotierten Variationen bietet eine tiefere biologische Interpretation und erleichtert somit unser Verständnis der Verbindung zwischen diesen Variationen und phänotypischen Prädispositionen.

Beim Filtern und Priorisieren von Varianten beginnt der Prozess häufig mit einer Qualitätskontrollphase, in der erkannte Varianten, die möglicherweise aus Sequenzierungsfehlern oder anderen nicht-pathogenen Faktoren resultieren, ausgeschlossen werden. Zu den gängigen Filterkriterien gehören die Sequierungstiefe, die Basisqualität und die Heterogenität. Anschließend wird das Filtern für häufige polymorphe Varianten durchgeführt.

Weitere Filter werden dann basierend auf der funktionalen Auswirkung der Varianten angewendet, wie z.B. nicht-synonyme und synonyme Mutationen, wobei hauptsächlich diejenigen Varianten beibehalten werden, die wahrscheinlich die Proteinstruktur und -funktion beeinflussen. Die Varianten werden dann im Hinblick auf die betroffenen Gene genau untersucht, wobei Varianten, die in bekannten krankheitsassoziierten Genen auftreten, Priorität erhalten. Sobald die Varianten durch diese Filter gesiebt wurden, werden sie nach ihrer Wahrscheinlichkeit und potenziellen Pathogenität eingestuft, wobei Faktoren wie Funktionalität, Standort, Häufigkeit und klinische Implikationen der Varianten berücksichtigt werden. Letztendlich werden Varianten mit hoher Priorität für weitere Validierungsprozesse, funktionale Studien oder klinische Diagnosen ausgewählt, um ihre Relevanz für Krankheiten und ihre biologische Funktionalität zu etablieren.

Die Variantenfilterung kann falsch-positive Varianten, die durch Sequenzierungs- oder Analysefehler eingeführt werden, mindern und somit die Genauigkeit der Variantenbestimmung erhöhen. Durch die Festlegung strenger Filterkriterien und die Priorisierung von Strategien werden potenziell pathogene Varianten absichtlich für eine sofortige Betrachtung positioniert, was die Entdeckung von krankheitsassoziierten Varianten beschleunigt.

The pipeline involving three important phases, viz. preprocessing, variant discovery and prioritization of variants. (Meena et al., 2017)Abbildung 2. Die Pipeline, die drei wichtige Phasen umfasst, nämlich Vorverarbeitung, Variantenentdeckung und Priorisierung von Varianten. (Meena et al., 2017)

Datenmanagement

Bei der Speicherung von Daten könnte das enorme Datenvolumen, das durch Next Generation Sequencing (NGS) Technologien erzeugt wird, traditionelle Speicherlösungen überfordern. Daher rückt die Überlegung von Cloud-Speicherdiensten, wie Amazon S3, in den Fokus. Diese Dienste bieten nahezu unbegrenzte Speicherkapazität und arbeiten nach dem Pay-as-you-go-Modell, das Nutzungsschwankungen berücksichtigt. Kommerzielle Anbieter wie Illumina bieten ebenfalls cloudbasierte Datenspeicherdienste innerhalb ihrer NGS-Umgebungen an, die einen beschleunigten Zugriff auf genomische Abweichungen ermöglichen und bei medizinischen Diagnosen unterstützen.

Um die umfangreichen genomischen Sequierungsdaten wirtschaftlich zu speichern, wird die Kompression von Sequierungsdaten zu einem praktikablen Ansatz. Verschiedene Datenkompressionstechniken wurden entwickelt, darunter naive Kodierung, dictionary-basierte Kompression, statistische Methoden und die Kompression von Referenzgenomen. Beispielsweise bietet das CRAM-Format eine effiziente Kompressionsmethode, die den benötigten Speicherplatz erheblich reduziert.

In Bezug auf den Datenaustausch bieten internationale Datenbanken wie EBI und NCBI Möglichkeiten zur Speicherung und zum Zugriff auf große Datensätze. Mit dem Anstieg des Datenvolumens wird jedoch die Nachhaltigkeit des Datenaustauschs zu einem Anliegen. Darüber hinaus wurden Plattformen wie das ICGC Cancer Genome Portal und Oncomine eingerichtet, um den Datenaustausch zu fördern. Diese Plattformen verfügen über webbasierte Schnittstellen zur Suche und Visualisierung von genomischen und klinischen Daten, wodurch kollaborative Forschungsanstrengungen unterstützt werden.

Fazit

Zusammenfassend lässt sich sagen, dass die bioinformatische Analyse von Whole-Exom-Sequenzierung erlebt derzeit eine Phase rapiden Wachstums und birgt enormes Potenzial in der genetischen Forschung und klinischen Anwendungen. Mit weiteren technologischen Fortschritten und Verfeinerungen in den Analysemethoden erwarten wir, in Zukunft weitere Geheimnisse genetischer Erkrankungen zu entschlüsseln, wodurch zunehmend personalisierte medizinische Interventionen für Patienten ermöglicht werden.

Wenn Sie an der Whole-Exom-Sequenzierung bereitgestellt von CD GenomicsBitte zögern Sie nicht, uns zu kontaktieren. Wir bieten ein umfassendes Paket für die gesamte Exomsequenzierung an, einschließlich Probenstandardisierung, Exomfang, Bibliothekskonstruktion, Hochdurchsatzsequenzierung, Qualitätskontrolle der Rohdaten und bioinformatischer Analyse. Wir können diesen Ablauf auf Ihr Forschungsinteresse zuschneiden.

Referenzen:

  1. Bao R, Huang L, Andrade J, et al. Übersicht über aktuelle Methoden, Anwendungen und Datenmanagement für die bioinformatische Analyse von Whole-Exome-Sequenzierungen. Krebsinformatik, 2014, 13: CIN. S13779.
  2. Meena N, Mathur P, Medicherla K M, et al. Eine Bioinformatik-Pipeline für die gesamte Exomsequenzierung: Überblick über die Verarbeitung und Schritte von Rohdaten bis zur nachgelagerten Analyse. bioRxiv, 2017: 201145.
  3. Xu H, DiCarlo J, Satya RV, Peng Q, Wang Y. Vergleich von Methoden zur Erkennung somatischer Mutationen in Amplikon- und Ganzexom-Sequenzdaten. BMC Genomik2014, 15:244.
  4. Lelieveld S H, Veltman J A, Gilissen C. Neuartige bioinformatische Entwicklungen für die Exom-Sequenzierung. Humangenetik, 2016, 135: 603-614.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben