Mit dem kontinuierlichen Fortschritt der Sequenzierungstechnologien hat sich die Restriction-site Associated DNA Sequencing (RAD-Seq) zunehmend als wichtiges Instrument in der Genomforschung etabliert. RAD-Seq umfasst die Sequenzierung von DNA-Fragmenten, die aus enzymatisch verdauten Stellen stammen, und bietet einen wirtschaftlich tragfähigen Ansatz zur Generierung einer Vielzahl von Single Nucleotide Polymorphism (SNP) Markern, unabhängig von der Verfügbarkeit eines Referenzgenoms oder Überlegungen zur chromosomalen Ploidie. Um Forschern bei der Auswahl der am besten geeigneten Technik, die auf ihre spezifischen Anforderungen zugeschnitten ist, zu helfen, bietet dieser Artikel eine vergleichende Analyse von drei weit verbreiteten RAD-Seq-Methoden.
Original RAD (Original Restriction-site Associated DNA): Einzelne Enzymverdauung + Mechanische Fragmentierung zur Bibliothekskonstruktion und Sequenzierung.
GBS (Genotyping by Sequencing): Häufige Enzym-Einzelverdauung + PCR-basierte selektive Amplifikation kurzer DNA-Fragmente zur Bibliothekskonstruktion und Sequenzierung.
ddRAD (Double-digest Restriction-site-associated DNA): Doppelter Enzymverdau mit Adapterligierung, die zu einem Enzym passt + Gelgrößenauswahl zur Bibliothekskonstruktion und Sequenzierung.
Tabelle 1: Vergleichende Analyse der drei RAD-Seq-Techniken
| Original RAD | GBS | ddRAD | |
| Optionen zur Anpassung der Anzahl der Loci | Ändern des Restriktionsenzyms | Ändern des Restriktionsenzyms | Ändern des Restriktionsenzyms oder der Größenauswahl |
| Anzahl der Loci pro 1Mb Genomgröße | 30-500 | 5-40 | 0.3-200 |
| Länge der Loci | ≤1kb, wenn Contigs gebaut werden; andernfalls ≤300bp | <300bp | ≤300bp |
| Kosten pro barcodiertem oder indiziertem Sample | Niedrig | Niedrig | Niedrig |
| Aufwand pro barcodiertem oder indiziertem Sample | Mittel | Niedrig | Niedrig |
| Verwendung eines proprietären Kits | Nein | Nein | Nein |
| Identifizierung von PCR-Duplikaten | Mit Paar-End-Sequenzierung | Mit degenerierten Barcodes | Mit degenerierten Barcodes |
| Benötigte spezielle Ausrüstung | Sonikator | Keine | Pippin Prep |
| Eignung für große oder komplexe Genome | Gut | Moderat | Gut |
| Eignung für de novo Loci-Identifizierung (kein Referenzgenom) | Gut | Moderat | Moderat |
| Verfügbar von kommerziellen Unternehmen | Ja | Ja | Ja |
In Übereinstimmung mit den Forschungszielen und den Eigenschaften der drei vereinfachten Genomtechniken sollten vier Schlüsselpunkte bei der Auswahl einer Strategie berücksichtigt werden.
Ein Referenzgenom, selbst wenn es von suboptimaler Qualität ist, erweist sich als vorteilhaft zur Reduzierung von Fehlern bei der Variantenerkennung, die aus homologen oder repetitiven Sequenzen resultieren. Es erleichtert auch die Erkennung von InDels und die Entfernung kontaminierender Sequenzen. Die Qualität der Genomassemblierung beeinflusst direkt die Ergebnisse. Darüber hinaus ist ein Referenzgenom für Abhängigkeitsanalysen, wie LD-Analysen und Selektionsanalysen, unerlässlich. Zudem wird eine Referenzgenomsequenz für die Durchführung von GWAS (Genome-Wide Association Studies) benötigt. Für Arten ohne Referenzgenom wird ddRAD-Sequenzierung empfohlen.
(1) Bei doppeltem Enzymverdau wird die Verwendung von langen Reads nicht empfohlen, da die Insertfragmente kurz sind und zu Adapterkontamination führen können. PE-Sequenzierung führt hingegen oft zu erheblichen Überlappungen.
(2) Wenn Insertfragmente länger sind und die Anzahl der Reads gleich bleibt, können lange Reads mehr Variationsinformationen erfassen.
(3) Bei gleichem Datenvolumen erhöht die Sequenzierung mit kurzen Reads die durchschnittliche Sequierungstiefe für jedes enzymatisch geschnittene Tag, was die Genauigkeit der SNP-Erkennung verbessert.
(4) Bei nicht-referenzierten Arten, wenn Reads2 aus der konventionellen RAD-Sequenzierung nicht assembliert werden, führt dies zu einem erheblichen Datenverlust. In solchen Fällen wird SE-Sequenzierung empfohlen.
Empfehlung: Im Kontext von Arten mit einem zugänglichen Referenzgenom ist es ratsam, die Nutzung der konventionellen RAD-Sequenzierung in Verbindung mit PE151-Sequenzierung in Betracht zu ziehen. Im Gegensatz dazu wäre für Arten ohne Referenzgenom die kluge Wahl, SE-Sequenzierung zu verwenden. GBS- und ddRAD-Methoden sind optimal mit PE101-Sequenzierung kombiniert.
Die Anzahl der in vereinfachten Genomtechniken identifizierten Loci wird von der Genomgröße, der Verteilung und der Menge der Enzym-Erkennungsstellen im Genom beeinflusst. Theoretische Zählungen der enzymatisch geschnittenen Fragmente können durch Simulation geschätzt werden, abhängig von den Informationen über Enzym-Erkennungsstellen und Genomsequenzen. Bei konventionellem RAD besteht das Ziel darin, alle mit den Enzymverdau-Stellen verbundenen Fragmente zu erfassen. GBS, das indirekt Fragmente auswählt, liefert jedoch in der Regel eine höhere Anzahl von Loci als tatsächlich mit den Enzymverdau-Stellen verbundene Fragmente, was durch Ändern des Enzymtyps angepasst werden kann. Bei ddRAD kann die Anzahl der Loci sowohl durch den Enzymtyp als auch durch die Änderung des Fragmentauswahlbereichs angepasst werden.
Empfehlung: Für die Informationsanalyse, die eine hohe Anzahl von Markern erfordert, wird die konventionelle RAD-Sequenzierung empfohlen. Für komplexe Genome und große Stichprobengrößen wird GBS-Sequenzierung vorgeschlagen.
Einführung von Duplikaten und Genotypisierungsfehlern: PCR-Amplifikationsbias kann dazu führen, dass heterozygote Loci als homozygot erkannt werden oder dass PCR-Amplifikationsfehler als echte Genotypen eingeführt werden. Dies hat auch einen erheblichen Einfluss auf die Informationsanalyse, die die Berechnung der Sequenzierungslesezahlen erfordert, wie z.B. die Berechnung der Allelfrequenzen in gepoolten Proben. Bei konventioneller RAD-Sequenzierung können PCR-Duplikate aufgrund von Variationen in den ursprünglichen Bibliothekssequenzlängen und der Tatsache, dass beide Enden keine Enzym-Erkennungsstellen sind, bis zu einem gewissen Grad gemildert werden. GBS und ddRAD sind jedoch weniger geeignet zur Entfernung von Duplikaten.
Zusammenfassend ist es für Forscher unerlässlich, bei der Formulierung einer Forschungsstrategie wichtige Faktoren zu berücksichtigen, einschließlich der Anwesenheit eines Referenzgenoms, des Sequenzierungsansatzes, der Loci-Anzahl und der potenziellen Auswirkungen der PCR-Amplifikation. Jeder dieser Überlegungen hat eine herausragende Bedeutung für die differenzierte Auswahl der am besten geeigneten RAD-Seq-Technik, die auf die spezifischen Anforderungen eines bestimmten Forschungsunterfangens zugeschnitten ist.
Vereinfachte Genomsequenzierung hat in der Tier- und Pflanzenforschung weit verbreitete Anwendung gefunden und dient als wertvolles Werkzeug für eine Vielzahl von Anwendungen, einschließlich SNP-Erkennung, Analysen der Populationsentwicklung, Bewertungen der Populationsstruktur, Bewertungen der Populationsvielfalt und Untersuchungen der historischen Dynamik von Populationen.
Literaturverzeichnis: