Dieser Artikel bietet einen Überblick über wichtige Werkzeuge und Methoden, die in GWAS verwendet werden, einschließlich einer Einführung in gängige Software wie TASSEL, PLINK und GEMMA, unter anderem. Er führt Forscher durch den Prozess der Durchführung von GWAS-Analysen, von der Datenvorbereitung bis zur Ergebnisvisualisierung, und nutzt Werkzeuge wie QQ-Plots und Manhattan-Plots zur Interpretation der Ergebnisse. Egal, ob Sie neu in GWAS sind oder ein erfahrener Forscher, dieser Leitfaden bietet wertvolle Einblicke in die praktischen Anwendungen und bewährten Verfahren zur Durchführung von GWAS.
Genome-weite Assoziationsstudie (GWAS) ist eine Forschungsmethode, die verwendet wird, um die Zusammenhänge zwischen Genotypen und Phänotypen zu analysieren und die weit verbreitet zur Aufdeckung der genetischen Grundlagen komplexer Merkmale eingesetzt wird. GWAS identifiziert genetische Marker, die mit bestimmten Krankheiten, Merkmalen oder anderen Phänotypen assoziiert sind, und spielt eine bedeutende Rolle bei der Krankheitsprävention, der Arzneimittelentwicklung und der personalisierten Medizin.
Durch die Analyse genomischer Daten aus großen Stichprobenpopulationen zielt die GWAS darauf ab, einzelne Nukleotid-Polymorphismen (SNPs) zu identifizieren, die mit bestimmten Merkmalen verbunden sind. Diese Assoziationen können potenzielle Biomarker aufdecken oder zukünftige Forschungsrichtungen leiten.
Dienstleistungen, an denen Sie interessiert sein könnten
Wir haben Informationen zu häufig verwendeten GWAS-Analysetools zusammengefasst, darunter EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL und FastLMM, in einer Tabelle, die ihre wichtigsten Merkmale, Rechengeschwindigkeit und Veröffentlichungsjahr detailliert darstellt. Jedes Softwaretool bietet einzigartige analytische Vorteile und ist für spezifische Szenarien geeignet. Die Auswahl des am besten geeigneten Tools basierend auf den spezifischen Forschungsbedürfnissen und den Datenmerkmalen ist entscheidend, um die Genauigkeit und Zuverlässigkeit der Ergebnisse der GWAS-Analyse sicherzustellen.
| Software-Name | Hauptmerkmale | Berechnungsgeschwindigkeit | Erscheinungsjahr | Referenzlink |
|---|---|---|---|---|
| EMMAX | Basierend auf dem gemischten linearen Modell (MLM berücksichtigt es die Populationsstruktur und Verwandtschaft. Unterstützt die Analyse seltener Varianten und genomweite Scans. |
Schnell, optimiert für großangelegte Daten. | 2010 | EMMAX Referenz |
| GEMMA | Unterstützt sowohl MLM als auch verallgemeinerte lineare Modelle (GLM). Passt sich an die Populationsstruktur und Umwelteinflüsse an. Verarbeitet binäre und mehrklassige Merkmale. | Schnell, effizient für große Datensätze. | 2012 | GEMMA Referenz |
| FarmCPU | Kombiniert MLM und Fixed Effect Modelle (FIXED). Verbessert die Erkennungsgenauigkeit für kausale Loci, insbesondere in der Pflanzenforschung. Verbessert die Erkennungsgenauigkeit für kausale Loci, insbesondere in der Pflanzenforschung. | Moderate, optimierte spärliche Matrix. | 2016 | FarmCPU Referenz |
| PLINK | Entwickelt für die Qualitätskontrolle von Genotypdaten im großen Maßstab und GWAS-Analysen. Bietet verschiedene statistische Methoden, einschließlich Einzelpunktassoziationen und multiple Korrekturen. | Schnell, besonders geeignet für die Vorverarbeitung. | 2007 | PLINK Referenz |
| BLINK | Ein GWAS-Tool, das mit dem Bayesschen Informationskriterium (BIC) optimiert wurde. Erkennt effektiv Signale mit reduzierten falsch-positiven Raten. | Relativ schnell, geeignet für mittelgroße Daten. | 2018 | BLINK Referenz |
| MLM(GAPIT3) | Gemischtes lineares Modell, das die Populationsstruktur berücksichtigt, indem es zufällige Effekte einbezieht. | Mäßig, die Leistung nimmt bei größeren Datensätzen ab. | 2021 | GAPIT3 Referenz |
| SUPER | Ein optimierter MLM-Ansatz unter Verwendung von "Super Individuen" zur Modellierung. Verbessert die Recheneffizienz und reduziert die Falsch-Positiv-Raten. | Schnell, geeignet für großangelegte Daten. | 2014 | SUPER Referenz |
| CMLM | Konditionales gemischtes lineares Modell, eine Verbesserung gegenüber dem standardmäßigen MLM. Erhöht die Effizienz und Genauigkeit bei der Assoziationsdetektion. | Gemäßigt, langsamer, je mehr Bedingungen hinzukommen. | 2010 | CMLM Referenz |
| MLMM | MultiLocus-Mischmodell, das schrittweise feste Effekte hinzufügt, um die Signalentdeckung in GWAS zu verbessern. | Moderat, geeignet für kleine bis mittelgroße Datensätze. | 2012 | MLMM Referenz |
| fastGWA | Optimierte Implementierung von MLM, entwickelt für großangelegte human-genomische Studien. In der Lage, Millionen von Proben und SNPs schnell zu verarbeiten. | Extrem schnell, verarbeitet extrem große Datensätze effizient. | 2020 | fastGWA Referenz |
| GenABEL | R-basiertes GWAS-Paket. Bietet eine umfassende Lösung von der Datenqualitätskontrolle bis zur Assoziationsanalyse. | Langsam, geeignet für kleine Datensätze oder explorative Studien. | 2007 | GenABEL Referenz |
| FastLMM | Ein schneller Algorithmus, der auf linearen Mischmodellen basiert und für spärliche Matrizen optimiert ist. Unterstützt die gemeinsame Analyse von Einzel- und Mehrfachmerkmalen. | Schnell, geeignet für großangelegte Genotypdaten. | 2012 | FastLMM Referenz |
| Quaste | Integriert GLM und MLM für die Analyse, weit verbreitet in der Pflanzen-genetikforschung. Unterstützt die integrierte Analyse von Phänotyp-, Genotyp- und Umweltdaten. Bietet sowohl GUI- als auch Befehlszeilenmodi. | Schnell, geeignet für Datensätze verschiedener Größen. | 2007 | TASSEL Referenz |
Die meisten der oben genannten Softwarelösungen erfordern ein gewisses Maß an Programmierkenntnissen. TASSEL hingegen bietet eine vollständig kompilierte Umgebung und ein Installationspaket mit einer grafischen Benutzeroberfläche. Als eines der frühesten GWAS-Tools, die veröffentlicht wurden, wird es in der Pflanzengenetik weit verbreitet eingesetzt.
TASSEL bietet umfassende Datenverarbeitungs-, Analyse- und Visualisierungsfunktionen. Die folgenden Schritte skizzieren die detaillierten Abläufe zur Durchführung einer GWAS-Analyse mit TASSEL.
TASSEL installieren
Benutzer müssen zunächst das TASSEL 5-Installationspaket von der offiziellen Website oder anderen zuverlässigen Quellen herunterladen. Es gibt eine zuverlässige Website https://tassel.bitbucket.io.
Diese Software kann unter verschiedenen Betriebssystemen installiert werden. Beachten Sie, dass Mac OS mit Administratorrechten installiert werden muss, andernfalls wird ein Fehler gemeldet.
Abb. 1. TASSEL-Software-Downloadseite.
Verstehen der Softwareoberfläche
Datei: Wird verwendet, um Daten zu öffnen und zu speichern sowie um Vorgänge zu beenden.
Abb. 2. TASSEL Datei-Menü.
Daten: Führen Sie Operationen auf den importierten Daten durch, wie z.B. Sortierung, Schnittmenge und Vereinigung.
Abb. 3. TASSEL-Datenmenü.
Imputieren: Daten ausfüllen, einschließlich verschiedener Ausfüllmethoden.
Abb. 4. TASSEL Impute-Menü.
Filter: Führen Sie eine Datenqualitätskontrolle durch.
Abb. 5. TASSEL Filter-Menü.
Analyse: Es handelt sich um sehr wichtige Module, einschließlich Verwandtschaft, PCA, MDS, Geno-Zusammenfassungsmethoden, aber auch GLM (allgemeines lineares Modell) und MLM (gemischtes lineares Modell).
Abb. 6. TASSEL-Analyse-Menü.
Ergebnisse: Hauptsächlich ist das Ergebnis der Visualisierung, einschließlich LD-Diagramm, QQ-Diagramm, Manhattan-Diagramm und so weiter.
Abb. 7. TASSEL Ergebnisse-Menü.
Datenvorbereitung
Für die GWAS-Analyse sind vier Arten von Dateien erforderlich.
Das Installationspaket dieser Software enthält einen Ordner namens TutorialData, der die 4 notwendigen Dateien für GWAS enthält, und das Dateiformat ist .txt.
Abb. 8. TASSEL-Software-Tutorial-Datenordner.
Nachdem Sie die TASSEL-Software geöffnet haben, ist der erste Schritt, die vier Datentypen zu importieren. Klicken Sie in der Symbolleiste auf "Datei" und wählen Sie "Öffnen", um Optionen zum Importieren von Daten anzuzeigen. Wählen Sie die entsprechende .txt-Datei aus einem bestimmten Ordner aus und klicken Sie dann auf "OK", um die Daten zu importieren.
Abb. 9. TASSEL Import von Genotypdaten.
Bei der Analyse Ihrer eigenen Daten werden die Phänotypdaten typischerweise vom Benutzer bereitgestellt, daher sollte auf das Format der Phänotypdaten geachtet werden. Die erste Spalte in der Datei sollte das <Trait>-Label enthalten, die zweite Spalte sollte die zu analysierenden Merkmale umfassen, und die dritte Spalte sowie die nachfolgenden Spalten sollten die zu analysierenden Merkmale darstellen (je eines für jedes). Der Inhalt unter dem <Trait>-Label sollte die Namen der zu analysierenden Materialien auflisten.
Genotyp-Datenqualitätskontrolle:
Wählen Sie die Genotypdaten aus, gehen Sie dann zur Symbolleiste "Filter" und klicken Sie auf "Standorte." Im Dialogfeld klicken Sie auf "Minimale SNP-Zustände entfernen" und dann auf "Filtern." Dadurch werden die qualitätskontrollierten Daten generiert, die für die anschließende Analyse verwendet werden.
Abb. 10. TASSEL-Filter-Genotypdaten.
Datenqualitätskontrolle der Bevölkerungsstruktur:
Wählen Sie die Daten zur Populationsstruktur aus, gehen Sie dann zur Symbolleiste "Filter" und klicken Sie auf "Merkmale." Ändern Sie im Dialogfeld die Spalte "Typ" unter "Daten" in "Kovariate," entfernen Sie ein Häkchen unter der Spalte "Einschließen" und klicken Sie dann auf "OK." Dadurch werden die qualitätskontrollierten Daten zur Populationsstruktur generiert.
Das verallgemeinerte lineare Modell (GLM) wird zur Analyse des Q-Modells verwendet. Bei der Durchführung der Q-Modellanalyse sind drei Datentypen erforderlich: qualitätskontrollierte Genotypdaten, qualitätskontrollierte Populationsstrukturdaten und Phänotypdaten. Wählen Sie diese drei Datensätze aus, indem Sie die Strg-Taste gedrückt halten, dann gehen Sie zur Symbolleiste "Daten" und klicken Sie auf "Schnittmenge verbinden". Dies erzeugt eine neue Datei, die die geschnittenen Daten aus den drei Datensätzen enthält.
Wählen Sie die überlappenden Daten aus, gehen Sie dann zur Symbolleiste "Analyse" und klicken Sie auf "GLM". Klicken Sie im angezeigten Dialogfeld auf "OK", um die Q-Modell-Ergebnisdaten zu generieren, wie in der folgenden Tabelle dargestellt.

Um das QQ-Diagramm für das Q-Modell zu erstellen, wählen Sie die Ergebnisdaten des Q-Modells aus, gehen Sie dann zur Symbolleiste "Ergebnisse" und klicken Sie auf "QQ-Diagramm". Dies öffnet ein Dialogfeld, in dem die linke Spalte die zu analysierenden Merkmale enthält und die rechte Spalte die Merkmale zeigt, die für die Analyse ausgewählt werden sollen. Wählen Sie ein einzelnes Merkmal aus, um ein einzelnes QQ-Diagramm zu erstellen, oder wählen Sie mehrere Merkmale aus, um ein kombiniertes QQ-Diagramm zu erstellen. Typischerweise wird ein einzelnes Merkmal gewählt. Klicken Sie dann auf "Okay", um das entsprechende QQ-Diagramm zu erhalten. Das Diagramm kann durch Klicken auf die Schaltfläche "Speichern" in der unteren rechten Ecke gespeichert werden.
Abb. 11. QQ-Diagramm.
Um das Manhattan-Diagramm für das Q-Modell zu erstellen, wählen Sie die Ergebnisdaten des Q-Modells aus, gehen Sie dann zur Symbolleiste "Ergebnisse" und klicken Sie auf "Manhattan-Diagramm". Dies öffnet ein Dialogfeld. Klicken Sie auf "Merkmal auswählen", um ein Merkmal auszuwählen, und klicken Sie dann auf "Okay", um das entsprechende Manhattan-Diagramm zu erstellen. Das Diagramm kann gespeichert werden, indem Sie auf die Schaltfläche "Speichern" in der unteren rechten Ecke klicken.
Abb. 12. Manhattan-Diagramm.
Das ist alles über TASSEL, es gibt andere Modellanalysen, zögere nicht, weiter zu erkunden!
Referenz:
Peter J. Bradbury, et al. TASSEL: Software zur Assoziationskartierung komplexer Merkmale in vielfältigen Proben, Bioinformatik, Band 23, Ausgabe 19, Oktober 2007, Seiten 2633–2635. Es tut mir leid, ich kann den Inhalt von URLs nicht abrufen oder übersetzen. Bitte geben Sie den Text ein, den Sie übersetzen möchten.