Strukturelle Variationen (SVs) Beziehen Sie sich auf Mutationen innerhalb von DNA-Segmenten, die länger als 50 Basenpaare sind. Bemerkenswerte SV-Typen umfassen Deletion, Duplikation, Insertion, Inversion und Translokation.
In Bezug auf ihren Einfluss auf die Genexpression können SVs unterschiedliche Auswirkungen haben:
Haupttypen von SV und ihre charakteristischen Leseausrichtungsmuster. (van Belzen et al., 2021)
Im Kontext von Krankheiten können SVs eine abnormale Merkmalsausprägung hervorrufen, die zu verschiedenen erblichen Erkrankungen führt.
Während die Häufigkeit von strukturellen Varianten in der menschliches Genom macht ungefähr 0,5 % im Vergleich zu einzelnen Nukleotidvarianten (SNVs) aus, sie betreffen insgesamt zehnmal mehr Basen als SNVs. Strukturelle Varianten sind eher mit genomweiten Assoziationssignalen verbunden und haben eine höhere Neigung, die Genexpression im Vergleich zu SNVs zu beeinflussen.
SVs sind ein wesentlicher Beitrag zu genetischen Störungen beim Menschen. Aktuelle klinische Tests basieren jedoch überwiegend auf konventionellen zytogenetischen Methoden. Um chromosomale Abnormalitäten umfassend zu erkennen, ist häufig eine Kombination aus zytogenetischen Techniken wie Fluoreszenz-in-situ-Hybridisierung (FISH), Karyotypisierung und Mikroarrays zur Bestimmung von Kopienzahlvariationen (CNV) erforderlich.
Hochdurchsatz-Sequenzierungstechniken Erzeugen kurze Nukleotidsequenzen, die typischerweise Dutzende bis Hunderte von Basen umfassen, die als Sequenzierungsfragmente oder "Reads" bezeichnet werden. Die meisten Methoden zur Erkennung von strukturellen Varianten (SV) basierend auf Sequenzierungstechnologien identifizieren diese Fragmente, indem sie sie an ein Referenzgenom anpassen. Dennoch stellt die präzise SV-Erkennung erhebliche Herausforderungen dar, da SVs tendenziell in repetitiven oder duplizierten DNA-Regionen vorkommen und eine Vielzahl von Typen umfassen, einschließlich Insertionen, Deletionen, Inversionen, Translokationen und Duplikationen, was den Erkennungsprozess weiter kompliziert.
Read-Paar-Methode (RP)
Die Read-Paar-Methode, auch bekannt als Paired-End-Sequenzierung (PE), umfasst die Sequenzierung beider Enden desselben DNA-Fragments, das als read1 und read2 bezeichnet wird, in entgegengesetzten Richtungen. Diese Reads sind typischerweise kurz, oft weniger als einige hundert Basenpaare. Der Raum zwischen ihnen wird als Insertionsfragment bezeichnet, dessen Größe als Insertgröße bezeichnet wird. Die Messung der tatsächlichen Insertlänge zwischen read1 und read2 erfolgt indirekt und beinhaltet das Ausrichten auf ein Referenzgenom.
PE-Sequenzierung liefert wertvolle Informationen über den Abstand und die Ausrichtung von gepaarten Reads an den Enden eines DNA-Fragmentes. Durch den Vergleich dieser Reads mit einem Referenzgenom können wir ihre Positions- und Ausrichtungsinformationen analysieren, um zu identifizieren strukturelle Varianten (SVs) die vom Referenzgenom abweichen.
Einschränkungen:
Split-Lese-Methode
Die Read-Tiefe-Methode erkennt Duplikationen und Deletionen, indem sie eine zufällige Verteilung der Mapping-Tiefe annimmt, wie beispielsweise eine Poisson-Verteilung. Sie identifiziert duplizierte Regionen mit hoher Read-Tiefe und gelöschte Regionen mit niedriger Read-Tiefe im Vergleich zu einem Referenzgenom.
Lese-Tiefenmethoden
Split-Lese-Methoden sind geschickt darin, Deletionen und kleine Einspeisungen zu erkennen, insbesondere bei langen Sanger-Sequenzlesungen. Diese Methoden zielen darauf ab, die Bruchstellen struktureller Varianten zu identifizieren und können auch mobile Einspeisungen erkennen, wenn die Lesevorgänge ausreichend lang sind (>400 bp). Allerdings ist die Häufigkeit kurzer Lesevorgänge in NGS-basierte Sequenzierung kompliziert Ausrichtungen und schränkt die Anwendbarkeit der Split-Read-Methode ein. Der Pindel-Algorithmus nutzt beispielsweise End-Paar-Lesungen, um die Komplexität von Ausrichtungen kurzer Sequenzen zu reduzieren.
Sequenz-De-Novo-Assemblierung (AS) Ansatz
Theoretisch, de novo Zusammenstellung kann alle Arten von strukturellen Variationen genau erkennen. Allerdings liefern NGS-Technologien hauptsächlich kurze Lesesequenzen (typischerweise 30 bp), was eine erhebliche Herausforderung für die de novo-Assemblierung des gesamten Genoms darstellt. Traditionelle Assemblierungsmethoden erfordern die Identifizierung überlappender Regionen, was die Komplexität der Assemblierung erhöht. Obwohl die Assemblierung mit gepaarten Reads theoretisch einfacher ist, ist sie in der Praxis komplexer im Vergleich zur Assemblierung mit ungepaarten Reads. Verschiedene Algorithmen zielen darauf ab, die de novo-Assemblierung mit lokalisierten Assemblierungstechniken zu kombinieren, um diese Herausforderungen zu bewältigen.
Kurzlese-Sequenzierungs-Workflow zur Identifizierung struktureller Varianten. (Ho et al., 2020)
Long-Read-Sequenzierungstechnologie (hauptsächlich von PacBio und Oxford Nanopore) kündigt einen Paradigmenwechsel bei der Erkennung struktureller Varianten an und bringt erhöhte Effizienz und Datenintegrität mit sich. Im Bereich der Identifizierung genomischer struktureller Varianten sind sowohl Langzeit-Sequenzierung und die de novo Assemblierung zeichnen sich als formidable Werkzeuge aus. Diese Methoden glänzen darin, ein umfassendes Inventar von strukturellen Varianten aller Art bereitzustellen. Allerdings verleiht die intrinsische Fähigkeit von Long-Read-Sequenzierungsgeräten, lange DNA-Sequenzen zu erzeugen, eine deutliche Verbesserung der Erkennungsgenauigkeit, die es ermöglicht, selbst die größten strukturellen Varianten zu erkennen, einschließlich derjenigen schwer fassbaren Regionen, die von anderen technologischen Mitteln nicht erfasst werden können.
Vergleich zwischen de novo-Assemblierung, Kurzlese- und Langlese-Mapping-Ansätzen zur Identifizierung struktureller Varianten. (Mahmoud et al., 2019)
Tiefgreifende Fortschritte bei der Erkennung von verschiedenen strukturellen Varianten
Der Langzeit-Sequenzierung Die Technologie hat tiefgreifende Veränderungen in der Erkennung struktureller Varianten bewirkt, dank ihrer Fähigkeit, lange Sequenzlesungen zu erzeugen. Sie zeichnet sich nicht nur durch die Entdeckung häufiger struktureller Varianten aus, sondern erfasst auch geschickt komplexe strukturelle Variationen, Tandemwiederholungen und Einfügungen transponierbarer Elemente. Diese breite Fähigkeit versetzt sie weit voraus im Vergleich zu herkömmlichen Methoden zur Identifizierung struktureller Varianten.
Im Gegensatz zu herkömmlichen Techniken zeichnet sich die Langzeit-Sequenzierungstechnologie dadurch aus, dass sie präzise identifizieren kann komplizierte strukturelle VariantenDiese Komplexitäten umfassen oft mehrere Breakpoints und Varianten-Sequenzen, die traditionelle Ansätze verwirren könnten. Die längeren Leseweiten, die der Langzeit-Sequenzierungstechnologie eigen sind, ermöglichen eine genauere Identifizierung und Lokalisierung dieser Breakpoints, was die Erkennungsgenauigkeit erheblich erhöht.
Die Technologie zeigt auch eine bemerkenswerte Fähigkeit, zu unterscheiden. Tandemwiederholungen—eine Form der strukturellen Variation, die die Genfunktion und -expression tiefgreifend beeinflusst. Wo traditionelle Methoden bei der Erkennung von Tandemwiederholungen versagen können, glänzt die Langzeit-Sequenzierungstechnologie, indem sie mühelos zwischen verschiedenen Wiederholungssequenzen unterscheidet und den Forschungsdatensatz mit umfassenden Informationen anreichert.
Wenn es darum geht, zu erkennen transposable ElementeinschübeDie Langlese-Sequenzierungstechnologie zeigt außergewöhnliche Fähigkeiten. Sie ermöglicht eine präzise Erfassung dieser Insertionsevents und bietet den Forschern ein tieferes Verständnis der genomischen Auswirkungen solcher strukturellen Varianten.
Über die Vielfalt in der Erkennung struktureller Varianten hinaus, Langzeit-Sequenzierungstechnologie ermöglicht es Forschern auch, detailliertere Einblicke zu gewinnen. Es liefert wichtige Informationen, einschließlich der genauen Positionen der Varianten-Breakpoints und vollständigen Varianten-Sequenzen, die für weitere Forschungen sowie für die Interpretation der Funktionalität und Auswirkungen von Varianten unerlässlich sind.
Präzises Bestimmen von Breakpoint-Standorten
Die Long-Read-Sequenzierungstechnologie zeichnet sich durch die präzise Lokalisierung von Bruchpunkten struktureller Varianten aus – ein entscheidender Aspekt für nachfolgende Forschung und Validierung. Forscher können ein differenzierteres Verständnis der genauen Standorte gewinnen, an denen Varianten auftreten, was zur Aufklärung von Zusammenhängen zwischen Varianten und Krankheiten oder anderen biologischen Prozessen beiträgt.
Ein weiteres markantes Merkmal von Langzeit-Sequenzierungstechnologie liegt in seiner Fähigkeit, umfassende Informationen über Varianten-Sequenzen zu liefern. Im krassen Gegensatz zu traditionellen Methoden, die möglicherweise nur begrenzte Einblicke in Varianten-Sequenzen bieten, erfasst die Langsequenzierungstechnologie die Gesamtheit der Varianten-Sequenzen. Dieses umfassende Datenset ermöglicht es Forschern, umfassendere Analysen der Variantenmerkmale und ihrer potenziellen Auswirkungen durchzuführen.
Referenzen: