Vergleich von drei RAD-Seq-Technologien und wie man auswählt

Mit dem kontinuierlichen Fortschritt der Sequenzierungstechnologien hat sich die Restriction-site Associated DNA Sequencing (RAD-Seq) zunehmend als wichtiges Instrument in der Genomforschung etabliert. RAD-Seq umfasst die Sequenzierung von DNA-Fragmenten, die aus enzymatisch verdauten Stellen stammen, und bietet einen wirtschaftlich tragfähigen Ansatz zur Generierung einer Vielzahl von Single Nucleotide Polymorphism (SNP) Markern, unabhängig von der Verfügbarkeit eines Referenzgenoms oder Überlegungen zur chromosomalen Ploidie. Um Forschern bei der Auswahl der am besten geeigneten Technik, die auf ihre spezifischen Anforderungen zugeschnitten ist, zu helfen, bietet dieser Artikel eine vergleichende Analyse von drei weit verbreiteten RAD-Seq-Methoden.

Definition der drei RAD-Seq-Techniken

Original RAD (Original Restriction-site Associated DNA): Einzelne Enzymverdauung + Mechanische Fragmentierung zur Bibliothekskonstruktion und Sequenzierung.

GBS (Genotyping by Sequencing): Häufige Enzym-Einzelverdauung + PCR-basierte selektive Amplifikation kurzer DNA-Fragmente zur Bibliothekskonstruktion und Sequenzierung.

ddRAD (Double-digest Restriction-site-associated DNA): Doppelter Enzymverdau mit Adapterligierung, die zu einem Enzym passt + Gelgrößenauswahl zur Bibliothekskonstruktion und Sequenzierung.

Tabelle 1: Vergleichende Analyse der drei RAD-Seq-Techniken

	Original RAD	GBS	ddRAD
Optionen zur Anpassung der Anzahl der Loci	Ändern des Restriktionsenzyms	Ändern des Restriktionsenzyms	Ändern des Restriktionsenzyms oder der Größenauswahl
Anzahl der Loci pro 1Mb Genomgröße	30-500	5-40	0.3-200
Länge der Loci	≤1kb, wenn Contigs gebaut werden; andernfalls ≤300bp	＜300bp	≤300bp
Kosten pro barcodiertem oder indiziertem Sample	Niedrig	Niedrig	Niedrig
Aufwand pro barcodiertem oder indiziertem Sample	Mittel	Niedrig	Niedrig
Verwendung eines proprietären Kits	Nein	Nein	Nein
Identifizierung von PCR-Duplikaten	Mit Paar-End-Sequenzierung	Mit degenerierten Barcodes	Mit degenerierten Barcodes
Benötigte spezielle Ausrüstung	Sonikator	Keine	Pippin Prep
Eignung für große oder komplexe Genome	Gut	Moderat	Gut
Eignung für de novo Loci-Identifizierung (kein Referenzgenom)	Gut	Moderat	Moderat
Verfügbar von kommerziellen Unternehmen	Ja	Ja	Ja

Wie man eine RAD-Seq-Strategie auswählt

In Übereinstimmung mit den Forschungszielen und den Eigenschaften der drei vereinfachten Genomtechniken sollten vier Schlüsselpunkte bei der Auswahl einer Strategie berücksichtigt werden.

Referenzgenom

Ein Referenzgenom, selbst wenn es von suboptimaler Qualität ist, erweist sich als vorteilhaft zur Reduzierung von Fehlern bei der Variantenerkennung, die aus homologen oder repetitiven Sequenzen resultieren. Es erleichtert auch die Erkennung von InDels und die Entfernung kontaminierender Sequenzen. Die Qualität der Genomassemblierung beeinflusst direkt die Ergebnisse. Darüber hinaus ist ein Referenzgenom für Abhängigkeitsanalysen, wie LD-Analysen und Selektionsanalysen, unerlässlich. Zudem wird eine Referenzgenomsequenz für die Durchführung von GWAS (Genome-Wide Association Studies) benötigt. Für Arten ohne Referenzgenom wird ddRAD-Sequenzierung empfohlen.

Sequenzierungsstrategie

(1) Bei doppeltem Enzymverdau wird die Verwendung von langen Reads nicht empfohlen, da die Insertfragmente kurz sind und zu Adapterkontamination führen können. PE-Sequenzierung führt hingegen oft zu erheblichen Überlappungen.

(2) Wenn Insertfragmente länger sind und die Anzahl der Reads gleich bleibt, können lange Reads mehr Variationsinformationen erfassen.

(3) Bei gleichem Datenvolumen erhöht die Sequenzierung mit kurzen Reads die durchschnittliche Sequierungstiefe für jedes enzymatisch geschnittene Tag, was die Genauigkeit der SNP-Erkennung verbessert.

(4) Bei nicht-referenzierten Arten, wenn Reads2 aus der konventionellen RAD-Sequenzierung nicht assembliert werden, führt dies zu einem erheblichen Datenverlust. In solchen Fällen wird SE-Sequenzierung empfohlen.

Empfehlung: Im Kontext von Arten mit einem zugänglichen Referenzgenom ist es ratsam, die Nutzung der konventionellen RAD-Sequenzierung in Verbindung mit PE151-Sequenzierung in Betracht zu ziehen. Im Gegensatz dazu wäre für Arten ohne Referenzgenom die kluge Wahl, SE-Sequenzierung zu verwenden. GBS- und ddRAD-Methoden sind optimal mit PE101-Sequenzierung kombiniert.

Anzahl der Loci

Die Anzahl der in vereinfachten Genomtechniken identifizierten Loci wird von der Genomgröße, der Verteilung und der Menge der Enzym-Erkennungsstellen im Genom beeinflusst. Theoretische Zählungen der enzymatisch geschnittenen Fragmente können durch Simulation geschätzt werden, abhängig von den Informationen über Enzym-Erkennungsstellen und Genomsequenzen. Bei konventionellem RAD besteht das Ziel darin, alle mit den Enzymverdau-Stellen verbundenen Fragmente zu erfassen. GBS, das indirekt Fragmente auswählt, liefert jedoch in der Regel eine höhere Anzahl von Loci als tatsächlich mit den Enzymverdau-Stellen verbundene Fragmente, was durch Ändern des Enzymtyps angepasst werden kann. Bei ddRAD kann die Anzahl der Loci sowohl durch den Enzymtyp als auch durch die Änderung des Fragmentauswahlbereichs angepasst werden.

Empfehlung: Für die Informationsanalyse, die eine hohe Anzahl von Markern erfordert, wird die konventionelle RAD-Sequenzierung empfohlen. Für komplexe Genome und große Stichprobengrößen wird GBS-Sequenzierung vorgeschlagen.

PCR-Amplifikation

Einführung von Duplikaten und Genotypisierungsfehlern: PCR-Amplifikationsbias kann dazu führen, dass heterozygote Loci als homozygot erkannt werden oder dass PCR-Amplifikationsfehler als echte Genotypen eingeführt werden. Dies hat auch einen erheblichen Einfluss auf die Informationsanalyse, die die Berechnung der Sequenzierungslesezahlen erfordert, wie z.B. die Berechnung der Allelfrequenzen in gepoolten Proben. Bei konventioneller RAD-Sequenzierung können PCR-Duplikate aufgrund von Variationen in den ursprünglichen Bibliothekssequenzlängen und der Tatsache, dass beide Enden keine Enzym-Erkennungsstellen sind, bis zu einem gewissen Grad gemildert werden. GBS und ddRAD sind jedoch weniger geeignet zur Entfernung von Duplikaten.

Zusammenfassend ist es für Forscher unerlässlich, bei der Formulierung einer Forschungsstrategie wichtige Faktoren zu berücksichtigen, einschließlich der Anwesenheit eines Referenzgenoms, des Sequenzierungsansatzes, der Loci-Anzahl und der potenziellen Auswirkungen der PCR-Amplifikation. Jeder dieser Überlegungen hat eine herausragende Bedeutung für die differenzierte Auswahl der am besten geeigneten RAD-Seq-Technik, die auf die spezifischen Anforderungen eines bestimmten Forschungsunterfangens zugeschnitten ist.

Vereinfachte Genomsequenzierung hat in der Tier- und Pflanzenforschung weit verbreitete Anwendung gefunden und dient als wertvolles Werkzeug für eine Vielzahl von Anwendungen, einschließlich SNP-Erkennung, Analysen der Populationsentwicklung, Bewertungen der Populationsstruktur, Bewertungen der Populationsvielfalt und Untersuchungen der historischen Dynamik von Populationen.

Literaturverzeichnis:

Ali OA, O'Rourke SM, Amish SJ, et al. RAD capture (Rapture): flexible and efficient sequence-based genotyping. Genetics, 2016, 202(2): 389-400.
Andrews KR, Good JM, Miller MR, et al. Harnessing the power of RAD-seq for ecological and evolutionary genomics. Nature Reviews Genetics, 2016, 17(2): 81-92.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.

Verwandte Dienstleistungen