Was ist das Humangenomprojekt (HGP)?

Das Humangenomprojekt (HGP) wurde 1990 ins Leben gerufen, um zwei zentrale Ziele zu erreichen: 1) die Struktur der menschlichen DNA zu analysieren und 2) alle menschlichen Gene zu lokalisieren. Kürzlich haben wir erfolgreich das erste Ziel erreicht, ein vollständiges und zusammenhängendes Genom zu erhalten. DNA-Sequenz des menschlichen GenomsDie Erreichung des zweiten Ziels war jedoch viel komplexer als ursprünglich erwartet, obwohl wir ein viel besseres Verständnis für den Standort und die Funktion von Tausenden menschlicher Gene gewonnen haben.

Wissenschaftler aus mehreren Ländern haben die Ziele des Humangenomprojekts erneut überprüft und sich mit den Fortschritten, Herausforderungen und Reaktionen auf die vier spezifischen Bemühungen befasst, die Annotation der menschlichen Gene in den kommenden Jahren abzuschließen:

(1) Vervollständigung einer Liste von protein-codierenden Genen und ihren verschiedenen Isoformen.

(2) Erstellung einer vollständigen Liste von RNA-Genen einschließlich verschiedener Längen und Typen.

(3) Identifizierung und Verknüpfung spezifischer Krankheiten, die mit medizinisch wichtigen Genen und Genvarianten assoziiert sind.

(4) Verfeinerung der Techniken, die erforderlich sind, um die Annotation menschlicher Gene zu realisieren.

Fortschritte und Herausforderungen bei der Annotation von protein-kodierenden Genen

Die Annotation von protein-kodierenden Genen war ein Schwerpunkt im Rahmen des Human Genome Project. Nach der Aufklärung der Gensequenzen kommt die wissenschaftliche Gemeinschaft zunehmend zu einem Konsens über die Identität dieser Gene, obwohl der Prozess der Annotation weiterhin ein Arbeitsprozess ist.

Ursprünglich in den 1980er Jahren auf 50.000 bis 100.000 Gene geschätzt, sind diese Schätzungen im Laufe der Zeit kontinuierlich gesunken. Die erste Veröffentlichung des menschliches Genom die Schätzung auf 30.000 bis 40.000 reduziert, gefolgt von einer weiteren Reduzierung auf 25.000, und die aktuelle Anzahl liegt bei knapp 20.000 Genen. Eine kürzliche Datenbankveröffentlichung, exemplifiziert durch die GENCODE-Version 41 mit 19.370 Genen, unterstreicht diese kontinuierliche Verfeinerung. Diese Anpassungen sind das Ergebnis vielfältiger Fortschritte, die sorgfältige manuelle Überprüfungen, Verbesserungen in den Methoden der computerbasierten Annotation und Analyse sowie die zunehmende Generierung von umfassen. hochwertige experimentelle TranskriptionsdatenTrotz des allgemeinen Rückgangs der Genanzahl wird weiterhin an der Identifizierung neuer protein-codierender Gene und alternativer Isoformen bekannter Gene gearbeitet.

Eine bemerkenswerte Zusammenarbeit, bekannt als MANE (Matched Annotation from the NCBI and EMBL-EBI, Ensembl/GENCODE und RefSeq), hat kürzlich einen nahezu umfassenden Datensatz eingeführt, der eine Isoform für jedes protein-codierende Gen enthält. Diese Initiative hat einen Konsens zwischen zwei führenden Annotierungsprojekten, RefSeq und GENCODE, erreicht. MANE 1.0 umfasst 19.062 Genloci und deckt 95 % der Gesamtzahl der protein-codierenden Loci in den wichtigsten menschlichen Genkatalogen ab.

Nicht-kodierende RNA-Genannotation

Nicht-kodierende RNA-Gene (ncRNAs) eine Kategorie von RNA-Molekülen, die von DNA transkribiert werden, ohne protein-codierende Kapazität, jedoch entscheidend für zelluläre Funktionen. Die Identifizierung funktioneller ncRNAs stellt eine erhebliche Herausforderung bei der Annotation dar, da zahlreiche transkribierte RNA-Sequenzen unter verschiedenen zellulären und umweltbedingten Bedingungen möglicherweise keine funktionale Relevanz aufweisen. Der Begriff "Gene" ist für RNAs mit etablierten Funktionen reserviert, wodurch der Umfang der Annotierungsbemühungen eingegrenzt wird. Derzeit konzentrieren sich die meisten Annotierungsbestrebungen darauf, umfassend zu katalogisieren ncRNA-Transkripte, unabhängig von ihrer funktionalen Klassifizierung.

Eine grundlegende Herausforderung bei der Annotation von ncRNAs besteht darin, funktionale Labels zuzuordnen. Im Gegensatz zu protein-codierenden Genen, für die umfangreiche a priori funktionale Beweise vorliegen und robuste computergestützte Methoden auf Basis von Primärsequenzinformationen die Funktionsvorhersage erleichtern, ist die Situation bei ncRNAs deutlich anders. Unser Verständnis dieser Moleküle ist begrenzt, und es fehlen validierte Methoden zur Vorhersage ihrer Funktionen allein auf Basis der Sequenz. Folglich konzentrieren sich die jüngsten Bemühungen auf ncRNA-Genannotierung Ziel ist es, die verschiedenen Arten von Beweisen zu umreißen, die sie unterstützen, wie z. B. gewebespezifische Expressionsniveaus, selbst wenn ihre funktionalen Rollen unklar bleiben. Der Schwerpunkt liegt auf der Charakterisierung vielfältiger Facetten von Beweisen und der Anerkennung der Komplexität der Funktionalität nicht-kodierender RNAs.

Genannotierung im klinischen Kontext

Die Annotation menschlicher Gene hat entscheidende Auswirkungen auf die Diagnose und Behandlung genetischer Störungen. Im umfassenden OMIM-Katalog sind über 5.000 Gene und eine Vielzahl von Varianten mit monogenen Erkrankungen und Krankheitsanfälligkeit verknüpft, wie am Beispiel der über 34.000 Varianten des BRCA1-Gens dokumentiert im BRCA Exchange-Datenbank. Bemerkenswerterweise sind 2.228 dieser Varianten als pathogen eingestuft.

Die Genauigkeit und Vollständigkeit von Gen- und Transkriptmodellen spielen eine entscheidende Rolle bei der Bewertung des pathogenetischen Potenzials von Varianten. Werkzeuge wie PolyPhen, Revel und Variant Effect Predictor (VEP) stützen sich auf vorhergesagte Transkripte des offenen Leserahmens, um die Auswirkungen von Varianten zu bestimmen. Darüber hinaus ist die Präzision der Exon-Grenzenannotation entscheidend für die Gestaltung von Oligonukleotid-Decoys und PCR-Primern, die in klinischen Diagnosetests verwendet werden. gezielte ErfassungssequenzierungSelbst im Kontext der gesamten Genomsequenzierung (WGS) zu diagnostischen Zwecken werden unannotierte Exons typischerweise von den Klinikern ausgeschlossen.

Die vorherrschende Herausforderung in diesem Bereich besteht in der Etablierung eines klinischen Standards. Derzeit arbeiten klinische Labore überwiegend mit den GRCh37 (hg19) menschlichen Assemblies und nutzen RefSeq-Transkripte als Referenz für krankheitsassoziierte Gene, oft basierend auf Literaturberichten. Dieser Ansatz steht jedoch vor zwei wesentlichen Problemen: Erstens passen nicht alle RefSeq-Transkripte nahtlos zum GRCh37 menschlichen Referenzgenom, und zweitens müssen die gewählten Transkripte nicht unbedingt die Merkmale verkörpern, die für die klinische Diagnose entscheidend sind, oder die relevantesten Transkripte für die Interpretation darstellen. Die Entwicklung eines robusten klinischen Standards ist unerlässlich, um die Präzision und Zuverlässigkeit genetischer Annotationen im klinischen Bereich zu verbessern.

Nur für Forschungszwecke, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung bestimmt.
Verwandte Dienstleistungen
Sprechen Sie mit unseren Wissenschaftlern
Was möchten Sie besprechen?
Mit wem werden wir sprechen?

* ist ein erforderlicher Artikel.

Kontaktieren Sie CD Genomics
Allgemeine Geschäftsbedingungen | Datenschutzerklärung | Rückmeldung   Urheberrecht © CD Genomics. Alle Rechte vorbehalten.
Oben