Bioinformatische Analyse der viralen Metagenom-Sequenzierung

Virale Metagenomik die Untersuchung von Viren in Umwelt- und biologischen Proben durch die Nutzung von Next-Generation-Sequencing, das sehr große Datensätze erzeugt. Virale Metagenomik analysiert virale Sequenzen, um die Auswirkungen von Viren auf die Umwelt und die menschliche Gesundheit abzuleiten. Im Gegensatz zu Amplicon-Sequenzierung, Metagenomik erhält und untersucht genetisches Material direkt aus Umweltproben, was zu einem neuen Verständnis der Vielfalt und Funktion der mikrobielle Welt geführt hat. Die bioinformatische Analyse ist eines der wichtigsten Verfahren zu diesem Zweck.

Bioinformatik-Pipeline für virale Metagenomik

Die allgemeine Bioinformatik-Pipeline für virale Metagenomik umfasst Qualitätsprüfung und -filterung, Assemblierung sowie taxonomische Klassifikation und Binning. Es gibt zwei Arten von Methoden zur taxonomischen Klassifikation, nämlich ähnliche basierte Methoden und kompositionsbasierte Methoden. Ein repräsentatives Beispiel für eine ähnliche basierte taxonomische Klassifikation sind die NCBI BLAST-Suchen. Taxonomische Klassifikationsmethoden, die die Zusammensetzung des Genoms, wie GC-Gehalt oder die Nutzung kurzer Oligomere (k-Mers), untersuchen, sind als kompositionsbasierte Methoden bekannt, die zur taxonomischen Klassifikation von Sequenzen verwendet werden können, die keine Homologe aufweisen oder stark von Sequenzen in Datenbanken abweichen. Im Vergleich zu ähnlichen basierten Methoden haben kompositionsbasierte Methoden eine geringere Genauigkeit und sind stark von der Sequenzlänge abhängig.

Bioinformatics pipeline for viral metagenomics Abbildung 1. Bioinformatik-Pipeline für virale Metagenomik (Bzhalava und Dillner 2013).

Hier stellen wir zwei bioinformatische Pipelines vor, die für eine umfassende Virom-Analyse verfügbar sind: VIROME und Metavir 2.

VIROME

Die Virale Informatikressource für Metagenom-Exploration (VIROME), erstmals beschrieben von Wommack u. a.(2012) betont die Klassifizierung von viralen Metagenom-Sequenzierungen (vorhergesagte offene Leserahmen, ORFs) basierend auf Homologieanalysen. Die VIROME-Analyse stützt sich auf drei Datenbanken mit Proteinsequenzen, fünf annotierten Datenbanken (SEED, ACLAME, COG, GO und KEGG), die UniVec-Datenbank und CD-Hit 454. Der CD-Hit 454-Algorithmus wird verwendet, um Sequenzbibliotheken vom 454-Pyrosequencer nach falschen Duplikatsequenzen zu durchsuchen. Die UniRef 100-Peptid-Datenbank wird verwendet, um virale Metagenomsequenzen mit Ähnlichkeit zu bekannten Proteinen zu erkennen. Die MetaGenomes On-line (MGOL) Peptid-Datenbank enthält vorhergesagte Peptidsequenzen aus 137 Metagenom-Bibliotheken, die zur Erkennung von Ähnlichkeiten mit unbekannten Umweltsequenzen verwendet wird.

Die VIROME-Pipeline umfasst Qualitätskontrolle, Sequenzanalyse, funktionale und taxonomische ORF-Charakterisierung, ORF-Klassifizierung und Umweltcharakterisierung. Jede Sequenz wird zunächst auf Qualität getrimmt und von Linkern, Adaptern, Barcode-Sequenzierern und wahrscheinlich falschen Duplikat-Lesungen bereinigt. Anschließend werden Sequenzlesungen, die signifikante Homologie zu einer ribosomalen RNA (rRNA)-Sequenz aufweisen, mithilfe von BLASTN gegen die rRNA-Subjektdatenbank entfernt. tRNAscan-SE wird verwendet, um das Vorhandensein von tRNAs und ORFs mithilfe des MetaGene Annotators zu überprüfen. Eine Multi-Fasta-Datei von Peptidsequenzen wird dann erstellt und mithilfe von BLASTP gegen die UniRef 100- und MGOL-Datenbanken analysiert. Vorhergesagte Peptide können auch mithilfe der annotierten Sequenzdatenbanken charakterisiert werden. Basierend auf den Ergebnissen der BLASTP-Analysen wird jedes vorhergesagte virale Metagenom-Peptid in sieben VIROME-Klassen unterteilt (Abbildung 3).

Overview of flow-chart of VIROME bioinformatics pipeline Abbildung 2. Übersicht des Flussdiagramms der VIROME-Bioinformatik-Pipeline (Wommack u. a.. 2012)

Overview flow-chart of the VIROM classification scheme for environmental peptides Abbildung 3. Übersichtflussdiagramm des VIROM-Klassifikationsschemas für Umweltpeptide (Wommack u. a.. 2012).

Metavir 2

Metavir 2, beschrieben von Roux et al. (2014), ist das erste Werkzeug, das für eine umfassende Analyse von zusammengefügten Virom-Sequenzen entwickelt wurde. Metavir ist der Analyse von Viromen gewidmet, die von Registern hochgeladen werden, entweder Virome, die aus Rohdaten bestehen, oder Virome, die in Contigs zusammengefügt wurden. Viele Softwarelösungen stehen für den Assemblierungsschritt zur Verfügung: Newbler kann für 454-Daten verwendet werden, und Illumina-Daten können mit SOAP, MetaVelvet, OptiDBA und Idba-ud zusammengefügt werden.

  • Für nicht montierte Reads

Virom-Lesungen werden zunächst mit den vollständigen viralen Genomen der RefSeq-Virusdatenbank unter Verwendung von BLAST verglichen, um die taxonomische Zusammensetzung zu bestimmen. Die K–mer-Häufigkeitsverteilung wird für alle Datensätze ohne Größenbeschränkung berechnet. Phylogenetische Analysen werden mit FastTree durchgeführt. Basierend auf den BLAST-Treffergebnissen gegen RefseqVirus können zwei Arten von Rekrutierungsdiagrammen erstellt werden: ein Streudiagramm und ein Histogramm.

  • Für assemblierte Virome

Für assemblierte Virome werden ORFs zunächst durch MetaGeneAnnotator vorhergesagt. Alle vorhergesagten, übersetzten ORFs werden dann mit Datenbanken verglichen, einschließlich der RefseqVirus-Proteindatenbank unter Verwendung von BLASTp und der PFAM-Datenbank für Proteindomänen unter Verwendung von HMMScan.

Eine interaktive genomische Karte kann für die Contig-Darstellung mithilfe von RaphaelSVG und dem Raphael-zpd-Plugin erstellt werden. Ähnlichkeiten zwischen Contigs und zwischen Contigs und viralen Genomen können als interaktives Netzwerk visualisiert werden, das mit Cytoscape-web erstellt wurde. In Verbindung mit diesem Netzwerk kann die Kollinearität zwischen Contigs und Genomen oder anderen Contigs durch RaphaelSVG und Raphael-zpd angezeigt werden.

Referenzen:

  1. Wommack K E, Bhavsar J, Polson S W, u. a.VIROME: ein Standardverfahren zur Analyse von viralen Metagenomsequenzen. Standards in genomischen Wissenschaften, 2012, 6(3): 421.
  2. Bzhalava D, Dillner J. Bioinformatik für virale Metagenomik. J Data Mining Genomics Proteomics, 2013, 4(3): 2153-0602.1000134.
  3. Roux S, Tournayre J, Mahul A, u. a.Metavir 2: neue Werkzeuge für den Vergleich von viralen Metagenomen und die Analyse von assemblierten Viromen. BMC Bioinformatik, 2014, 15(1): 76.
Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben