Was sind GWAS-Analysetools?

Was sind GWAS-Analysewerkzeuge?

Dieser Artikel bietet einen Überblick über wichtige Werkzeuge und Methoden, die in GWAS verwendet werden, einschließlich einer Einführung in gängige Software wie TASSEL, PLINK und GEMMA, unter anderem. Er führt Forscher durch den Prozess der Durchführung von GWAS-Analysen, von der Datenvorbereitung bis zur Ergebnisvisualisierung, und nutzt Werkzeuge wie QQ-Plots und Manhattan-Plots zur Interpretation der Ergebnisse. Egal, ob Sie neu in GWAS sind oder ein erfahrener Forscher, dieser Leitfaden bietet wertvolle Einblicke in die praktischen Anwendungen und bewährten Verfahren zur Durchführung von GWAS.

Einführung in GWAS

Genome-weite Assoziationsstudie (GWAS) ist eine Forschungsmethode, die verwendet wird, um die Zusammenhänge zwischen Genotypen und Phänotypen zu analysieren und die weit verbreitet zur Aufdeckung der genetischen Grundlagen komplexer Merkmale eingesetzt wird. GWAS identifiziert genetische Marker, die mit bestimmten Krankheiten, Merkmalen oder anderen Phänotypen assoziiert sind, und spielt eine bedeutende Rolle bei der Krankheitsprävention, der Arzneimittelentwicklung und der personalisierten Medizin.

Durch die Analyse genomischer Daten aus großen Stichprobenpopulationen zielt die GWAS darauf ab, einzelne Nukleotid-Polymorphismen (SNPs) zu identifizieren, die mit bestimmten Merkmalen verbunden sind. Diese Assoziationen können potenzielle Biomarker aufdecken oder zukünftige Forschungsrichtungen leiten.

Wichtige GWAS-Analysewerkzeuge

Wir haben Informationen zu häufig verwendeten GWAS-Analysetools zusammengefasst, darunter EMMAX, GEMMA, FarmCPU, PLINK, BLINK, MLM, SUPER, CMLM, MLMM, fastGWA, GenABEL und FastLMM, in einer Tabelle, die ihre wichtigsten Merkmale, Rechengeschwindigkeit und Veröffentlichungsjahr detailliert darstellt. Jedes Softwaretool bietet einzigartige analytische Vorteile und ist für spezifische Szenarien geeignet. Die Auswahl des am besten geeigneten Tools basierend auf den spezifischen Forschungsbedürfnissen und den Datenmerkmalen ist entscheidend, um die Genauigkeit und Zuverlässigkeit der Ergebnisse der GWAS-Analyse sicherzustellen.

Software-Name Hauptmerkmale Berechnungsgeschwindigkeit Erscheinungsjahr Referenzlink
EMMAX Basierend auf dem gemischten linearen Modell (MLM berücksichtigt es die Populationsstruktur und Verwandtschaft.
Unterstützt die Analyse seltener Varianten und genomweite Scans.
Schnell, optimiert für großangelegte Daten. 2010 EMMAX Referenz
GEMMA Unterstützt sowohl MLM als auch verallgemeinerte lineare Modelle (GLM). Passt sich an die Populationsstruktur und Umwelteinflüsse an. Verarbeitet binäre und mehrklassige Merkmale. Schnell, effizient für große Datensätze. 2012 GEMMA Referenz
FarmCPU Kombiniert MLM und Fixed Effect Modelle (FIXED). Verbessert die Erkennungsgenauigkeit für kausale Loci, insbesondere in der Pflanzenforschung. Verbessert die Erkennungsgenauigkeit für kausale Loci, insbesondere in der Pflanzenforschung. Moderate, optimierte spärliche Matrix. 2016 FarmCPU Referenz
PLINK Entwickelt für die Qualitätskontrolle von Genotypdaten im großen Maßstab und GWAS-Analysen. Bietet verschiedene statistische Methoden, einschließlich Einzelpunktassoziationen und multiple Korrekturen. Schnell, besonders geeignet für die Vorverarbeitung. 2007 PLINK Referenz
BLINK Ein GWAS-Tool, das mit dem Bayesschen Informationskriterium (BIC) optimiert wurde. Erkennt effektiv Signale mit reduzierten falsch-positiven Raten. Relativ schnell, geeignet für mittelgroße Daten. 2018 BLINK Referenz
MLM(GAPIT3) Gemischtes lineares Modell, das die Populationsstruktur berücksichtigt, indem es zufällige Effekte einbezieht. Mäßig, die Leistung nimmt bei größeren Datensätzen ab. 2021 GAPIT3 Referenz
SUPER Ein optimierter MLM-Ansatz unter Verwendung von "Super Individuen" zur Modellierung. Verbessert die Recheneffizienz und reduziert die Falsch-Positiv-Raten. Schnell, geeignet für großangelegte Daten. 2014 SUPER Referenz
CMLM Konditionales gemischtes lineares Modell, eine Verbesserung gegenüber dem standardmäßigen MLM. Erhöht die Effizienz und Genauigkeit bei der Assoziationsdetektion. Gemäßigt, langsamer, je mehr Bedingungen hinzukommen. 2010 CMLM Referenz
MLMM MultiLocus-Mischmodell, das schrittweise feste Effekte hinzufügt, um die Signalentdeckung in GWAS zu verbessern. Moderat, geeignet für kleine bis mittelgroße Datensätze. 2012 MLMM Referenz
fastGWA Optimierte Implementierung von MLM, entwickelt für großangelegte human-genomische Studien. In der Lage, Millionen von Proben und SNPs schnell zu verarbeiten. Extrem schnell, verarbeitet extrem große Datensätze effizient. 2020 fastGWA Referenz
GenABEL R-basiertes GWAS-Paket. Bietet eine umfassende Lösung von der Datenqualitätskontrolle bis zur Assoziationsanalyse. Langsam, geeignet für kleine Datensätze oder explorative Studien. 2007 GenABEL Referenz
FastLMM Ein schneller Algorithmus, der auf linearen Mischmodellen basiert und für spärliche Matrizen optimiert ist. Unterstützt die gemeinsame Analyse von Einzel- und Mehrfachmerkmalen. Schnell, geeignet für großangelegte Genotypdaten. 2012 FastLMM Referenz
Quaste Integriert GLM und MLM für die Analyse, weit verbreitet in der Pflanzen-genetikforschung. Unterstützt die integrierte Analyse von Phänotyp-, Genotyp- und Umweltdaten. Bietet sowohl GUI- als auch Befehlszeilenmodi. Schnell, geeignet für Datensätze verschiedener Größen. 2007 TASSEL Referenz

GWAS-Analyse mit Tassel

Die meisten der oben genannten Softwarelösungen erfordern ein gewisses Maß an Programmierkenntnissen. TASSEL hingegen bietet eine vollständig kompilierte Umgebung und ein Installationspaket mit einer grafischen Benutzeroberfläche. Als eines der frühesten GWAS-Tools, die veröffentlicht wurden, wird es in der Pflanzengenetik weit verbreitet eingesetzt.

TASSEL bietet umfassende Datenverarbeitungs-, Analyse- und Visualisierungsfunktionen. Die folgenden Schritte skizzieren die detaillierten Abläufe zur Durchführung einer GWAS-Analyse mit TASSEL.

1. Installationssoftware

TASSEL installieren

Benutzer müssen zunächst das TASSEL 5-Installationspaket von der offiziellen Website oder anderen zuverlässigen Quellen herunterladen. Es gibt eine zuverlässige Website https://tassel.bitbucket.io.

Diese Software kann unter verschiedenen Betriebssystemen installiert werden. Beachten Sie, dass Mac OS mit Administratorrechten installiert werden muss, andernfalls wird ein Fehler gemeldet.

TASSEL software download.Abb. 1. TASSEL-Software-Downloadseite.

Verstehen der Softwareoberfläche

Datei: Wird verwendet, um Daten zu öffnen und zu speichern sowie um Vorgänge zu beenden.

TASSEL File menu.Abb. 2. TASSEL Datei-Menü.

Daten: Führen Sie Operationen auf den importierten Daten durch, wie z.B. Sortierung, Schnittmenge und Vereinigung.

TASSEL Data menu.Abb. 3. TASSEL-Datenmenü.

Imputieren: Daten ausfüllen, einschließlich verschiedener Ausfüllmethoden.

TASSEL Impute menu.Abb. 4. TASSEL Impute-Menü.

Filter: Führen Sie eine Datenqualitätskontrolle durch.

TASSEL Filter menu.Abb. 5. TASSEL Filter-Menü.

Analyse: Es handelt sich um sehr wichtige Module, einschließlich Verwandtschaft, PCA, MDS, Geno-Zusammenfassungsmethoden, aber auch GLM (allgemeines lineares Modell) und MLM (gemischtes lineares Modell).

TASSEL Analysis menu.Abb. 6. TASSEL-Analyse-Menü.

Ergebnisse: Hauptsächlich ist das Ergebnis der Visualisierung, einschließlich LD-Diagramm, QQ-Diagramm, Manhattan-Diagramm und so weiter.

TASSEL Results menu.Abb. 7. TASSEL Ergebnisse-Menü.

2.Datenimport

Datenvorbereitung

Für die GWAS-Analyse sind vier Arten von Dateien erforderlich.

  • Genotypdatei: Enthält die Genotypinformationen der Proben, typischerweise im Hapmap-Format.
  • Verwandtschaftsdatei: Wird verwendet, um die Verwandtschaftsbeziehungen zwischen Proben zu analysieren.
  • Bevölkerungsstrukturdatei: Wird verwendet, um die Bevölkerungsstruktur der Proben zu bewerten.
  • Phänotypdatei: Enthält Phänotypinformationen, die den Proben entsprechen, wie z. B. Krankheitsstatus oder Merkmalsmessungen.

Das Installationspaket dieser Software enthält einen Ordner namens TutorialData, der die 4 notwendigen Dateien für GWAS enthält, und das Dateiformat ist .txt.

TASSEL software TutorialDate foloder context.Abb. 8. TASSEL-Software-Tutorial-Datenordner.

Nachdem Sie die TASSEL-Software geöffnet haben, ist der erste Schritt, die vier Datentypen zu importieren. Klicken Sie in der Symbolleiste auf "Datei" und wählen Sie "Öffnen", um Optionen zum Importieren von Daten anzuzeigen. Wählen Sie die entsprechende .txt-Datei aus einem bestimmten Ordner aus und klicken Sie dann auf "OK", um die Daten zu importieren.

TASSEL import genotype data.Abb. 9. TASSEL Import von Genotypdaten.

Bei der Analyse Ihrer eigenen Daten werden die Phänotypdaten typischerweise vom Benutzer bereitgestellt, daher sollte auf das Format der Phänotypdaten geachtet werden. Die erste Spalte in der Datei sollte das <Trait>-Label enthalten, die zweite Spalte sollte die zu analysierenden Merkmale umfassen, und die dritte Spalte sowie die nachfolgenden Spalten sollten die zu analysierenden Merkmale darstellen (je eines für jedes). Der Inhalt unter dem <Trait>-Label sollte die Namen der zu analysierenden Materialien auflisten.

3. Datenqualitätskontrolle

Genotyp-Datenqualitätskontrolle:

Wählen Sie die Genotypdaten aus, gehen Sie dann zur Symbolleiste "Filter" und klicken Sie auf "Standorte." Im Dialogfeld klicken Sie auf "Minimale SNP-Zustände entfernen" und dann auf "Filtern." Dadurch werden die qualitätskontrollierten Daten generiert, die für die anschließende Analyse verwendet werden.

TASSEL fliter genotype data.Abb. 10. TASSEL-Filter-Genotypdaten.

Datenqualitätskontrolle der Bevölkerungsstruktur:

Wählen Sie die Daten zur Populationsstruktur aus, gehen Sie dann zur Symbolleiste "Filter" und klicken Sie auf "Merkmale." Ändern Sie im Dialogfeld die Spalte "Typ" unter "Daten" in "Kovariate," entfernen Sie ein Häkchen unter der Spalte "Einschließen" und klicken Sie dann auf "OK." Dadurch werden die qualitätskontrollierten Daten zur Populationsstruktur generiert.

4.GLM-Analyse

Das verallgemeinerte lineare Modell (GLM) wird zur Analyse des Q-Modells verwendet. Bei der Durchführung der Q-Modellanalyse sind drei Datentypen erforderlich: qualitätskontrollierte Genotypdaten, qualitätskontrollierte Populationsstrukturdaten und Phänotypdaten. Wählen Sie diese drei Datensätze aus, indem Sie die Strg-Taste gedrückt halten, dann gehen Sie zur Symbolleiste "Daten" und klicken Sie auf "Schnittmenge verbinden". Dies erzeugt eine neue Datei, die die geschnittenen Daten aus den drei Datensätzen enthält.

Wählen Sie die überlappenden Daten aus, gehen Sie dann zur Symbolleiste "Analyse" und klicken Sie auf "GLM". Klicken Sie im angezeigten Dialogfeld auf "OK", um die Q-Modell-Ergebnisdaten zu generieren, wie in der folgenden Tabelle dargestellt.

5. Ergebnissevisualisierung

Um das QQ-Diagramm für das Q-Modell zu erstellen, wählen Sie die Ergebnisdaten des Q-Modells aus, gehen Sie dann zur Symbolleiste "Ergebnisse" und klicken Sie auf "QQ-Diagramm". Dies öffnet ein Dialogfeld, in dem die linke Spalte die zu analysierenden Merkmale enthält und die rechte Spalte die Merkmale zeigt, die für die Analyse ausgewählt werden sollen. Wählen Sie ein einzelnes Merkmal aus, um ein einzelnes QQ-Diagramm zu erstellen, oder wählen Sie mehrere Merkmale aus, um ein kombiniertes QQ-Diagramm zu erstellen. Typischerweise wird ein einzelnes Merkmal gewählt. Klicken Sie dann auf "Okay", um das entsprechende QQ-Diagramm zu erhalten. Das Diagramm kann durch Klicken auf die Schaltfläche "Speichern" in der unteren rechten Ecke gespeichert werden.

QQ plot by TASSEL.Abb. 11. QQ-Diagramm.

Um das Manhattan-Diagramm für das Q-Modell zu erstellen, wählen Sie die Ergebnisdaten des Q-Modells aus, gehen Sie dann zur Symbolleiste "Ergebnisse" und klicken Sie auf "Manhattan-Diagramm". Dies öffnet ein Dialogfeld. Klicken Sie auf "Merkmal auswählen", um ein Merkmal auszuwählen, und klicken Sie dann auf "Okay", um das entsprechende Manhattan-Diagramm zu erstellen. Das Diagramm kann gespeichert werden, indem Sie auf die Schaltfläche "Speichern" in der unteren rechten Ecke klicken.

Manhattan plot by TASSEL.Abb. 12. Manhattan-Diagramm.

Das ist alles über TASSEL, es gibt andere Modellanalysen, zögere nicht, weiter zu erkunden!

Referenz:

  1. Peter J. Bradbury, et al. TASSEL: Software zur Assoziationskartierung komplexer Merkmale in vielfältigen Proben, Bioinformatik, Band 23, Ausgabe 19, Oktober 2007, Seiten 2633–2635. Es tut mir leid, ich kann den Inhalt von URLs nicht abrufen oder übersetzen. Bitte geben Sie den Text ein, den Sie übersetzen möchten.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
PDF herunterladen
* E-Mail-Adresse:

CD Genomics benötigt die von Ihnen bereitgestellten Kontaktdaten, um Sie über unsere Produkte und Dienstleistungen sowie andere Inhalte, die für Sie von Interesse sein könnten, zu kontaktieren. Indem Sie unten klicken, stimmen Sie der Speicherung und Verarbeitung der oben angegebenen persönlichen Informationen durch CD Genomics zu, um die von Ihnen angeforderten Inhalte bereitzustellen.

×
Anfrage für ein Angebot
! Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben