Dieser Artikel bietet eine kurze Einführung in bewährte Praktiken für die bioinformatische Analyse von 16S rRNA-Sequenzierung durch NGS (Next-Generation Sequencing). Die bioinformatische Pipeline umfasst zwei Hauptphasen: die Vorverarbeitung der Daten (Qualitätskontrolle) und die Quantifizierung (einschließlich taxonomischer Profilierung und prädiktiver Metagenomik-Profilierung).
![]()
Abbildung 1. Bioinformatik-Pipeline für NGS-basierte 16S rRNA-Amplicon-Sequenzierung (Mataragas) u. a.. 2018).
Tabelle 1. Software und statistische Tests, die in jeder Phase des Prozesses verwendet wurden (Mataragas) u. a.. 2018).
| Pipeline-Schritt | Statistischer Test und verwendete Software | Alternative Software |
| Verarbeitung | Qiime v.1.9.0 | SILVAngs-Pipeline BMPOS-Pipeline |
| Taxonomische Profilierung (OTUs) | SILVAngs-Pipeline unter Verwendung der SILVA-Datenbank | BMPOS-Pipeline unter Verwendung der Greengenes-Datenbanken EzBioCloud-Datenbank One Codex-Pipeline |
| Statistische Vergleich der metagenomischen Proben | ANOSIM mit der Past-Software | Stempel MicrobiomeAnalyst Explicet |
| Übersicht über die mikrobielle Gemeinschaft | Community-Analyzer Gestapelte Balkendiagramme mit GraphPad Prism-Software | MicrobiomeAnalyst Explicet |
| Statistische Signifikanz der identifizierten OTUs | METAGENassist | MicrobiomeAnalyst Explicet |
| Symbiotische und antagonistische Beziehungen innerhalb der mikrobiellen Gemeinschaft | Heatmap mit der METAGENassist-Software | MicrobiomeAnalyst Explicet |
| Prädiktives Metagenomik-Profiling (PMP) | Tax4Fun | Picrust Piphillin MicrobiomeAnalyst |
| Statistische Analyse der PMP-Ergebnisse | Kruskal-Wallis H-Test mit Tuckey-Kramer-Korrektur für multiple Tests gemäß Benjamini-Hochberg Falsche Entdeckungsrate unter Verwendung der Stamp-Software | MicrobiomeAnalyst |
| Orientierung der metagenomischen Proben der häufigsten KEGG-Weg. | Hauptkomponentenanalyse (PCA) mit der Past-Software | MicrobiomeAnalyst Stempel |
| Stoffwechselinteraktionen innerhalb der mikrobiellen Gemeinschaft | MMinte | - |
Die Entfernung von Adaptern, PCR-Primern und niedrigqualitativen Basen ist ein notwendiger Schritt zur Qualitätskontrolle von Sequenzen. Es wurden eine Vielzahl integrierter Werkzeuge für diesen Zweck entwickelt. 'Q' ist der Ausgabe-Qualitätswert für Illumina-Plattformen (Q10 steht für 1 erwarteten Fehler pro 10 Basen; Q20 steht für 1 erwarteten Fehler pro 100 Basen...). Die Eliminierung von Sequenzen mit niedrigen Qualitätswerten kann die Genauigkeit bioinformatischer Analysen verbessern. Im Vergleich zur Shotgun-Sequenzierung ist dies für die 16S rRNA-Amplikon-Sequenzierung bedeutender. Für die Sequenzierung des 16S rRNA-Gens sollte ein Qualitätsgrenzwert so hoch wie möglich festgelegt und die Sequenzen über die gesamte Länge getrimmt werden.
Vor der taxonomischen Klassifikation werden bakterielle 16S rRNA-Gene nach zwei Hauptansätzen gruppiert. Der eine Ansatz besteht darin, diese Sequenzen basierend auf ihrer Ähnlichkeit zu Referenzdatenbanken in Phylotypen zu gruppieren, der andere Ansatz besteht darin, Sequenzen in operationale taxonomische Einheiten (OTUs) unter Verwendung eines Ähnlichkeitsschwellenwerts von 97 % nur nach ihrer Ähnlichkeit zu gruppieren. Die verfügbaren Referenzdatenbanken zur Annotation von 16S rRNA-Genen umfassen die Greengenes-Datenbank, das Ribosomal Database Project (RDP), SILVA und das Human Microbiome Project (HMP).
Beta (β) Diversität misst den Unterschied in der bakteriellen Gemeinschaftszusammensetzung zwischen verschiedenen Proben. Bevor die β-Diversität quantifiziert werden kann, müssen die Lesezahlen (Reads, die jedem Taxon zugeordnet sind) normalisiert werden, um die technische Variabilität zwischen den Proben zu minimieren. Es gibt zwei gängige Normalisierungsverfahren: die Gesamtsumme und die Normalisierung des oberen Quartils.
Es gibt zwei Hauptmethoden zur Quantifizierung der β-Diversität: die phylogenetische β-Diversität, die die evolutionären Unterschiede zwischen Gemeinschaften berücksichtigt (wie UniFrac), und nicht-phylogenetische oder taxonbasierte Methoden (wie die Bray-Curtis-Dissimilarität). Sobald Distanzen oder Dissimilaritäten zwischen Proben bestimmt wurden, können sie in einem niederdimensionalen Raum angeordnet werden, um besser zu veranschaulichen, wie eng sie miteinander verwandt sind. Die beiden am häufigsten verwendeten Ordinationswerkzeuge sind die Hauptkoordinatenanalyse (PCoA) und die nicht-metrische multidimensionale Skalierung (NMDS).
![]()
Abbildung 2. NMDS und PCoA zur Quantifizierung der Beta-Diversität (Jovel u. a.. 2016).
Die OTU-Häufigkeitstabelle kann weiter verwendet werden, um auf metabolische Funktionen zu schließen. Es ist ein Prozess, um die Rolle des Mikrobioms im Stoffwechsel des Wirts und bei Krankheiten zu verstehen. Derzeit gibt es drei leistungsstarke Werkzeuge für das prädiktive Metagenomik-Profiling (PMP): PICRUSt, Tax4Fun und Piphillin.
Zukunftsperspektiven
16S-rRNA-Amplikon-Sequenzierung ist aufgrund seiner kosteneffizienten, zeiteffektiven und informativen Eigenschaften beliebt. Es ist jedoch auch durch mehrere Nachteile eingeschränkt. Erstens ist 16S gut geeignet für mehrere Patienten und longitudinale Studien, bietet jedoch begrenzte taxonomische und funktionale Informationen. Zweitens kann die PCR-Amplifikation verschiedener Regionen des 16S rRNA-Gens aufgrund nicht nur der unterschiedlichen Bindungsaffinitäten für die entsprechenden flankierenden konservierten Regionen, sondern auch aufgrund der Auflösung jeder variablen Region über die Taxa hinweg zu uneinheitlichen Ergebnissen führen. Daher, Vollständige 16S rRNA-Sequenzierung oder Shotgun-Metagenomik kann manchmal günstiger sein, insbesondere letzteres.
Referenzen: