BSA-seq-Technologie-Workflow

Bulked segregant analysis (BSA) ist eine Methode, die erstmals 1991 von R. W. MICHELMORE bei Salat angewendet wurde, um Gene, die spezifische Merkmale steuern, schnell zu lokalisieren. Die Methode beinhaltet die Auswahl von 12-14 einzelnen Pflanzen mit extremen Phänotypen aus einer F2-Population, deren DNA gleichmäßig zu zwei DNA-Pools zusammengeführt wird. Anschließend werden polymorphe Marker zwischen den Eltern und den beiden Pools gescreent. Wenn ein Marker einen konsistenten Polymorphismus zwischen den Eltern und den Pools zeigt, ist er wahrscheinlich mit dem Merkmal verknüpft. Die genotypische Analyse dieser ausgewählten polymorphen Marker in der F2-Population ermöglicht die Lokalisierung des Zielgens, wodurch die Notwendigkeit einer genotypischen Analyse jedes Markers in der Population entfällt.

Das Prinzip hinter dieser Methode ist, dass Marker, die mit dem Merkmal verknüpft sind, Polymorphismus zwischen den beiden Pools aufweisen, während Marker, die nicht verknüpft oder nur entfernt mit dem Zielgen verknüpft sind, zufällige Heterozygotie zwischen den Pools zeigen. BSA ist ein schneller Weg, um molekulare Marker zu erhalten, die mit dem Merkmal verknüpft sind, und wird typischerweise verwendet, um Gene für qualitative Merkmale oder quantitative Trait-Loci (QTL) zu lokalisieren, die Merkmale mit einer geringen Anzahl (2-3) von Haupteffekten steuern.

DNA-Probenextraktion und -erkennung

Zunächst wird DNA mithilfe eines DNA-Extraktionskits gemäß einem Standardverfahren extrahiert. DNA von den beiden extremen Phänotyp-Eltern kann direkt extrahiert und auf Qualität überprüft werden. Im Gegensatz dazu müssen Proben von Nachkommen nach der DNA-Extraktion und Qualitätsprüfung einen zusätzlichen Schritt durchlaufen, der eine äquimolare Mischung zur Erstellung von gepoolten Proben umfasst (jeder Pool sollte idealerweise mindestens 20 oder mehr Proben enthalten).

Die Erkennung von DNA-Proben umfasst drei Hauptmethoden:

  1. Agarose-Gelelektrophorese zur Analyse der Reinheit und Integrität der DNA.
  2. Nanodrop zur Beurteilung der DNA-Reinheit (OD260/280-Verhältnis).
  3. Qubit zur genauen Quantifizierung der DNA-Konzentration.

Probenanforderungen für DNA: Für jede Bibliotheksvorbereitung werden 2 μg Probe benötigt, wobei mindestens zwei Vorbereitungen bereitgestellt werden sollten. Die Probenkonzentration sollte >20 ng/μl betragen, das OD260/280-Verhältnis sollte zwischen 1,8 und 2,0 liegen, ohne sichtbare Kontamination, und die genomische DNA sollte intakt und ohne Abbau sein. In der Gelelektrophorese sollte das Hauptband der DNA größer als 23 kb sein.

Probenwahl: Für Pflanzenproben wird empfohlen, dunkel kultivierte, vergilbte Sämlinge oder zarte Sämlinge auszuwählen. Für Tierproben sollten Gewebe mit niedrigem Fettgehalt, wie Muskel oder Blut, zur Probenahme ausgewählt werden.

DNA-Probenextraktion und -erkennung

Bibliothekskonstruktion

DNA-Proben, die die Qualitätskontrolle bestanden haben, werden mit einem Fragmentierungsreagenzkit in Fragmente von 350 bp zerlegt, um eine Bibliothek zu erstellen. Die DNA-Fragmente durchlaufen verschiedene Schritte, einschließlich Endreparatur, PolyA-Schwanzaddition, Ligierung von Sequenzadaptern, Reinigung und PCR-Amplifikation, um den gesamten Prozess der Bibliotheksvorbereitung abzuschließen. Nach Abschluss der Bibliothekskonstruktion erfolgt eine erste Quantifizierung. Anschließend wird die Länge des Insertfragments der Bibliothek überprüft, und sobald die Länge der erwarteten Größe entspricht, wird eine quantitative PCR (qPCR) verwendet, um die effektive Konzentration der Bibliothek genau zu bestimmen und ihre Qualität sicherzustellen. Sobald die Bibliothek diese Qualitätsprüfungen besteht, geht sie in die nächste Sequenzierungsphase über.

Der spezifische Arbeitsablauf für die Bibliothekskonstruktion und Sequenzierung ist im folgenden Diagramm dargestellt:

Aasim MajeedAasim Majeed et al., Front. Genet., 08. August 2022

Bioinformationsanalyseprozess

Sobald der Qualitätskontrollprozess abgeschlossen ist, verläuft der Arbeitsablauf für die Bibliothekskonstruktion und Sequenzierung wie folgt:

(1) Datenqualitätskontrolle:

Nach Erhalt der Rohsequenzierungsdaten (Sequenzierte Reads) werden Adaptersequenzen und Sequenzen wie polyN und polyA herausgefiltert, um saubere Daten zu erhalten.

(2) Ausrichtung an das Referenzgenom:

Die gefilterten gültigen Reads werden mit BWA (Burrows-Wheeler Aligner) an das Referenzgenom ausgerichtet. Die Software SAMtools wird dann verwendet, um die Ausrichtungsergebnisse zu sortieren, gefolgt von der Verwendung von Picard, um doppelte Reads zu kennzeichnen. Das Kennzeichnen doppelter Reads beinhaltet das Labeln mehrerer identischer DNA-Fragmente, die durch PCR amplifiziert wurden. Gekennzeichnete Reads werden in nachfolgenden Analysen nicht verwendet, um falsch-positive Ergebnisse bei der Variantenerkennung zu vermeiden.

(3) SNP- und InDel-Erkennung:

Nach dem Kennzeichnen doppelter Sequenzen ist es notwendig, InDels basierend auf den CIGAR (Compact Idiosyncratic Gapped Alignment Report)-Werten, die in den BWA-Ausrichtungsergebnissen bereitgestellt werden, neu auszurichten. BWA toleriert Abweichungen (Mismatch und InDels) in der Nähe oder innerhalb kontinuierlicher Läufe von Homopolymer-Nukleotiden (z. B. aufeinanderfolgende T's oder A's). Dies kann zu Fehlern bei der Variantenerkennung führen. Daher ist es wichtig, das InDel-Neuausrichtungsmodul der GATK (Genome Analysis Toolkit)-Software zu verwenden, um Ausrichtungsfehler in der Nähe von InDels (Insertion-Deletion) zu minimieren.

Es ist wichtig zu beachten, dass die Qualität der Basenaufrufe (Qualitätswerte) entscheidend für die Analyse ist. Allerdings führen Sequenzierungsinstrumente systematische Verzerrungen ein, die die nachgelagerte Analyse erheblich beeinflussen können. Vor der Neuberechnung der Basisqualitätswerte werden beispielsweise Basenaufrufe mit Qualitätswerten über Q25 beibehalten. In der Realität haben Basen mit einem Qualitätswert von Q25 eine Fehlerquote von 1 %. Daher kann ein Qualitätswert von Q20 die Glaubwürdigkeit der nachfolgenden Variantenerkennung beeinträchtigen. Fehler bei den Basenaufrufen am Ende der Reads sind oft höher als am Anfang. Darüber hinaus ist die Qualität der AC-Basen typischerweise niedriger als die der TG-Basen. Daher wird die Basis-Neuberechnung von GATK eingesetzt, um die Basisqualitätswerte zu korrigieren und eine konsistentere und zuverlässigere Sequenzierungsqualität zu gewährleisten. Hinweis: Bei mehreren Sequenzierungsdurchläufen für dieselbe Probe oder mehrere Proben in verschiedenen Bahnen sollte die Basisneuberechnung separat für jede Bahn durchgeführt werden, um Genauigkeit und Effektivität sicherzustellen.

Nach diesen vorläufigen Schritten folgt die nächste Phase, die Erkennung von Mutationsstellen (Variantenerkennung). Die Unterscheidung echter genetischer Varianten von potenziellen Sequenzierungsfehlern (zufälliges Maschinenrauschen) ist eine kritische Herausforderung in diesem Prozess. GATK bietet zwei Methoden an: den modellunabhängigen UnifiedGenotyper, der den Einfluss benachbarter Basen nicht berücksichtigt, und das lokal de-novo-modellbasierte HaplotypeCaller. Der HaplotypeCaller konstruiert einen DeBruijn-Graphen und verwendet das PairHMM-Modell zur Vorhersage einzelner Haplotypen und zur Bewertung der Zuverlässigkeit von Mutationsstellen, was zu einer genaueren Variantenerkennung führt.

Derzeit ermöglicht das UnifiedGenotyper-Tool, in Kombination mit der vorherigen InDel-Neuausrichtung und Basisneuberechnung, eine präzise SNP-Erkennung.

(4) Erkennung struktureller Variationen (SV):

Strukturelle Variationen im Genom werden mit dem Lumpy-Algorithmus analysiert.

(5) Erkennung von Kopienzahlvariationen (CNV):

Die Analyse von Kopienzahlvariationen im Genom erfolgt mit dem Control-Freec-Algorithmus, der die Kopienzahlen für jede sich ändernde Region vorhersagen kann.

(6) Annotation:

Die biologische Informationsannotation für Mutationsstellen in kodierenden Regionen ist entscheidend, da diese Regionen für das Auftreten von Krankheiten und Veränderungen von Merkmalen wichtig sind. Die Software SnpEff und Annovar wird zur strukturellen Annotation von Mutationsstellen verwendet.

(7) Lokalisierung von Kandidatenregionen:

Basierend auf den erkannten SNP-Stellen wird der SNP-Index der gepoolten Proben berechnet, zusammen mit der Häufigkeitsdifferenz zwischen den beiden extremen Merkmalspools. Signifikante Differenzregionen werden ausgewählt, um die Kandidatenregion zu lokalisieren.

(8) Funktionale Annotation von Genen innerhalb der Kandidatenregionen:

Für Kandidatengene innerhalb der Kandidatenregion wird eine funktionale Annotation mit GO (Gene Ontology) und KEGG (Kyoto Encyclopedia of Genes and Genomes) durchgeführt.

(9) Verteilung und Typstatistik von SNP und InDel innerhalb der Kandidatenregionen:

Es wird eine Analyse durchgeführt, um die Beziehung zwischen SNP- und InDel-Variationen innerhalb der Kandidatenregionen und annotierten Genen zu verstehen. Dies umfasst die Analyse von Regionen, in denen nicht-synonyme Substitutionen oder Varianten, die zu vorzeitigen Stoppcodons führen, auftreten, sowie Regionen, in denen Variationen in regulatorischen Regionen (Promotorregionen) auftreten.

Verteilung und Typstatistik von SNP und InDel innerhalb der Kandidatenregionen

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben