What is de novo genome assembly, and when is it needed?

De novo genome assembly reconstructs a complete genome sequence from overlapping sequencing reads without a reference template. It is required when no high-quality reference genome exists for the species — which is the case for the vast majority of plants and animals on Earth.

How much does de novo genome sequencing cost for a plant or animal genome?

Cost scales with genome size and complexity. A 500 Mb diploid genome at chromosome-scale costs approximately $5,000-10,000. A 1-2 Gb genome at T2T quality costs $10,000-20,000. Large polyploid plant genomes (5-16 Gb) can cost $20,000-35,000.

Why is a genome survey recommended before full de novo sequencing?

A $200-500 genome survey (shallow Illumina + GenomeScope k-mer analysis) estimates genome size, heterozygosity, repeat content, and ploidy. This information determines how much sequencing is needed, which platforms are optimal, and whether specialized phasing or polyploid-aware assembly strategies are required.

What is the difference between chromosome-scale and T2T assembly?

A chromosome-scale assembly has contigs ordered and oriented into chromosomes but may contain gaps at repetitive regions. A T2T (telomere-to-telomere) assembly is gapless — every chromosome is a single continuous sequence from telomere to telomere, including centromeres. T2T requires ONT ultralong reads in addition to HiFi and Hi-C.

Do I need Hi-C data for my de novo genome?

For publication-quality reference genomes, yes. Hi-C provides the long-range linkage information needed to order and orient contigs into complete chromosomes. Without Hi-C, a HiFi assembly may produce 500-2,000 contigs; with Hi-C scaffolding, >90% of the assembly is typically anchored into chromosome-scale scaffolds.

What DNA input is required for plant and animal de novo sequencing?

For PacBio HiFi: ≥5 µg of HMW DNA, fragments ≥30 kb. For ONT ultralong: ≥10 µg DNA, N50 ≥50 kb (ideally ≥100 kb). For Hi-C: ≥1-2 µg of crosslinked DNA. DNA should be from a single individual for de novo assembly; pooled samples introduce artificial heterozygosity.

How long does a de novo genome project take from sample to completed assembly?

A typical project timeline is 4-6 months: sample prep (1-2 weeks), genome survey (2-3 weeks), sequencing (6-12 weeks), assembly and scaffolding (3-4 weeks), annotation (4 weeks), and curation/submission (4 weeks).

What bioinformatic deliverables are included in a CD Genomics de novo sequencing project?

Standard deliverables: raw sequencing data (FASTQ), QC report, assembled genome (FASTA), BUSCO/QV/k-mer QC metrics, repeat annotation (GFF), gene prediction (GFF3), and functional annotation (GO, KEGG, InterProScan, Swiss-Prot, NR). Publication-ready files formatted for NCBI/ENA/DDBJ submission are included.

De Novo Pflanzen- und Tiergenom-Sequenzierung: Strategien für Nicht-Modellarten mit Integration von Lang- und Kurzleseverfahren

Die Non-Model-Herausforderung – Warum De Novo-Assemblierung schwierig ist

Modellorganismen — Mensch, Maus, Arabidopsis, Drosophila, Zebrafisch — verfügen über jahrzehntelange kuratierte Referenzgenome, Genannotationen und Gemeinschaftsinfrastrukturen. Jede andere Art ist "nicht-modell", und das Zusammenstellen ihrer Genome stellt eine eigene Reihe von Herausforderungen dar, für die die Pipelines der Modellorganismen nie ausgelegt waren.

Keine Referenz, kein Gerüst

Ohne ein Referenzgenom gibt es keine Vorlage, gegen die die Reads ausgerichtet werden können. Der Zusammensteller muss das Genom rein aus Überlappungen der Reads rekonstruieren – ein rechenintensives Graphproblem, bei dem sich wiederholende Sequenzen Mehrdeutigkeiten erzeugen. Ein 300 bp Alu-Element wird trivial durch einen 15 kb HiFi-Read aufgelöst; ein 5 kb LTR-Retrotransposon, das in 10.000 Kopien im Genom vorkommt, erfordert eine Kombination aus HiFi-Kontinuität und ONT-ultralangen Übersichts-Reads zur Auflösung.

Heterozygotie — Das Zwei-Haplotypen-Problem

Nicht-Modellorganismen, insbesondere Wildpopulationen mit großen effektiven Populationen, können extreme Heterozygotie aufweisen. Ein mariner Wirbelloser mit 5 % heterozygoten Stellen produziert zwei distincte Haplotypen, die sich an jeder zwanzigsten Base unterscheiden. Ein standardmäßiger Assembler, der mit diesen Daten konfrontiert wird, produziert zwei Ergebnisse, die beide schlecht sind: Er fasst die beiden Haplotypen zu einem einzigen "Konsens" zusammen, der keiner von beiden ist, und erstellt eine Mosaikassemblierung mit artefaktischen Indels; oder er trennt die Haplotypen so aggressiv, dass sich die erwartete Genomgröße verdoppelt und jeder Haplotyp als separates "Genom" assembliert wird. Die Lösung ist haplotypbewusste Assemblierung — hifiasms Trio-Binning-Modus (unter Verwendung von elterlichen kurzen Reads, um lange Reads nach Haplotyp zu partitionieren) oder Hi-C-integrierte Phasierung, die Chromatin-Kontakte nutzt, um zu bestimmen, welche Varianten auf demselben physischen Chromosom koexistieren.

Polyploidie — Mehr als zwei Kopien

Viele Pflanzen sind polyploid. Brotweizen (Weichweizen) ist hexaploid (2n = 6x = 42), Zuckerrohr ist oktaploid bis dekaploid, und die Erdbeer-Gattung Erdbeere spans diploide bis dekaloide Arten. Polyploide Genome stellen ein Albtraum beim Zählen von k-Meren dar: Statt der klaren heterozygoten/homozygoten Peak-Struktur, die GenomeScope für Diploide modelliert, enthalten polyploide k-Mer-Spektren überlappende Peaks von Subgenomen mit gemeinsamer Abstammung (Homoeologe). GenomeScope 2.0 mit Smudgeplot kann Ploidie de novo schätzen und die Beiträge der Subgenome trennen, aber die Assemblierung von Polyploiden erfordert weiterhin Strategien zur Subgenom-Phasierung — die Unterscheidung, welche homoeologischen Kopien zu welchem ancestral Subgenom gehören — die ein aktives Forschungsfeld bleiben.

Wiederholter Inhalt und Genomgröße

Pflanzengenomen sind in einer Weise reich an Wiederholungen, wie es bei Tiergenomen nicht der Fall ist. Das 16 Gb große Genom des Weichweizens besteht zu 85 % aus transponierbaren Elementen. Das 22 Gb große Genom der Loblolly-Kiefer enthält massive Erweiterungen von LTR-Retrotransposons. Eine Benchmarking-Studie aus dem Jahr 2024 in Frontiers in Bioinformatics (Obinu et al.) zeigte, dass selbst bei HiFi-Reads die Kontinuität der Pflanzen-Genomassemblierung je nach verwendetem Scaffold-Tool um einen Faktor variieren kann — YaHS erreichte ein Contig N50 von 32,66 Mb bei HiFi-assemblierte Arabidopsis-Contigs, während 3D-DNA nur 3,41 Mb produzierte, was unterstreicht, dass die Auswahl des Werkzeugs für komplexe Genome von entscheidender Bedeutung ist.

Genomuntersuchung — Zweimal messen, einmal sequenzieren

Bevor man sich für eine vollständige de novo Assemblierung entscheidet, ist der kosteneffektivste Schritt eine Genomanalyse – flaches Illumina-Sequencing (30-50×) gefolgt von einer k-mer Häufigkeitsanalyse mit GenomeScope 2.0. Diese Investition von 200-500 $ beantwortet vier Fragen, die jede nachfolgende Entscheidung bestimmen:

Wie groß ist das Genom? GenomeScope schätzt die haploide Genomlänge anhand der k-mer Abdeckungsverteilung. Dies bestimmt die Anforderungen an die Sequenzierungstiefe. Ein 500 Mb Genom mit 30× HiFi-Abdeckung benötigt etwa 15 Gb HiFi-Daten; ein 5 Gb Genom bei derselben Abdeckung benötigt 150 Gb — ein 10× Unterschied in den Sequenzierungskosten.

Wie heterozygot ist es? Eine Heterozygotie von über 0,5 % signalisiert, dass eine haplotypenbewusste Assemblierung notwendig ist. Über 2 % sollten Trio-Binning oder elterliche Daten stark in Betracht gezogen werden. Über 5 % sollten Sie erwarten, deutlich mehr in sowohl Sequenzierungstiefe als auch Assemblierungs-Kuration zu investieren.

Wie repetitiv ist es? Die von GenomeScope geschätzte einzigartige Sequenzproportion gibt an, welcher Anteil des Genoms nicht repetitiv ist. Unter 50 % einzigartiger Sequenz werden ultralange ONT-Reads entscheidend, um die größten Wiederholungen abzudecken. Unter 30 % sollten Sie in Erwägung ziehen, optisches Mapping (Bionano) in die Technologiemischung aufzunehmen.

4. Ist es polyploid? Smudgeplot, ein Begleitwerkzeug zu GenomeScope 2.0, analysiert heterozygote k-mer-Paaren, um die Ploidie de novo zu schätzen. Ein diploides Genom erzeugt zwei Hauptverteilungen heterozygoter k-mer-Paare; ein tetraploides Genom erzeugt vier. Diese Informationen bestimmen, ob Strategien zur Subgenom-Phasierung erforderlich sind.

Der praktische Workflow: hochmolekulare DNA extrahieren → 30-50× Illumina sequenzieren (NovaSeq, 2×150 bp) → k-Mers mit Jellyfish oder KMC zählen (k=21) → Histogramm auf genomescope.org hochladen → Modellanpassung interpretieren. Eine Modellanpassung über 70% ist akzeptabel; unter 50% die Sequenzierungstiefe erhöhen oder mehrere k-Mer-Größen (k=17, 21, 27) ausprobieren, um die Konsistenz zu überprüfen. Der Bericht benötigt 24-48 Stunden ab Erhalt der Daten und kann Tausende von Dollar sparen, indem er untersequenzierte Assemblierungen verhindert, die downstream nicht behoben werden können.

GenomeScope 2.0 k-mer spectrum plot showing error peak, heterozygous peak, and homozygous peak with estimated genome parameters. Abbildung 2: GenomeScope 2.0 Umfrageausgabe — Ein gerahmtes Beispiel für ein k-mer Spektrum-Diagramm (k=21) aus einem diploiden Genom mit ~1% Heterozygosität, annotiert zur Anzeige des Fehlerpeaks, des heterozygoten Peaks (1n) und des homozygoten Peaks (2n). Unter dem Diagramm befindet sich eine Zusammenfassungstabelle der geschätzten Parameter: Genomgröße, Heterozygosität, Wiederholungsanteil % und Modellanpassung %. Eine 30-50× Illumina-Umfrage, die 200-500 $ kostet, leitet alle nachfolgenden Sequenzierungsentscheidungen.

Der Technologiestack für De Novo Assembly

Moderne de novo Genomassemblierung ist ein Multi-Plattform-, Multi-Daten-Typ-Vorgang. Keine einzelne Sequenzierungstechnologie liefert eine vollständige, genaue, chromosomale Assemblierung eines nicht-modell-eukaryotischen Genoms. Der Standard-Technologiestack, wie er vom Vertebrate Genomes Project (VGP) und dem Earth BioGenome Project (EBP) validiert wurde, kombiniert vier Datentypen:

PacBio HiFi — Das Kontinuitäts-Rückgrat

PacBio HiFi-Lesarten (CCS-Modus, modale Länge von 15-25 kb, ≥99,9% Genauigkeit) sind die Grundlage der modernen de novo Assemblierung. Bei einer Abdeckung von 30-60× erzeugen HiFi-Lesarten Contig-Assemblierungen mit N50s im Bereich von Megabasen bis zu mehreren Zehn-Megabasen für Genome von bis zu mehreren Gigabasen. Der hifiasm-Assembler (Cheng et al., 2021) hat sich zum De-facto-Standard entwickelt — er integriert nativ HiFi-Lesarten, Hi-C-Kontakte und optionale elterliche Kurzlesarten für Trio-Binning in einem einzigen Assemblierungsgraphen und produziert haplotypenaufgelöste primäre und alternative Assemblierungen in einem einzigen Durchlauf. Für Genome unter 3 Gb liefern HiFi-Only-Assemblierungen mit 40× Abdeckung und Hi-C-Scaffolding routinemäßig >95% BUSCO-Vollständigkeit und Scaffold-N50s auf Chromosomenmaßstab.

Oxford Nanopore Ultralang — Der Repeat-Spanner

ONT ultralange Reads (50-300+ kb, R10.4.1 Chemie, >99% modale Genauigkeit mit Dorado super-genauer Basenbestimmung) dienen einem anderen Zweck: Sie überbrücken die größten repetitiven Elemente, die selbst HiFi-Reads nicht überbrücken können. Zentromerische Satelliten (Mb-große Anordnungen von 171 bp Alpha-Satelliten-Wiederholungen bei Primaten oder die 156 bp CentO-Wiederholung in Reis), rDNA-Anordnungen (45S-Wiederholungen, die in Hunderten bis Tausenden von Tandemkopien vorhanden sind) und segmentale Duplikationen (>10 kb, >90% Identität) überschreiten alle die 25 kb HiFi-Obergrenze, fallen jedoch in den Bereich eines einzelnen ultralangen ONT-Reads. In einem typischen T2T-Assembly-Workflow werden ONT-ultralange Reads mit 15-20× Abdeckung zusammen mit HiFi-Reads co-assemblierte — entweder in das hifiasm-Assembly-Diagramm integriert (hifiasm --ul) oder separat mit Flye oder NextDenovo assembliert und dann über quickmerge oder RagTag zusammengeführt. CD Genomics bietet Nanopore Ultra-Langsequenzierung auf der PromethION-Plattform mit R10.4.1-Chemie und Dorado supergenauer Basenbestimmung, die routinemäßig Lese-N50s über 100 kb für die Lückenfüllung und T2T-Finishing liefert.

Hi-C — Von Contigs zu Chromosomen

Hi-C (Chromatin-Konformationsfang) liefert Informationen über langreichweitige Verknüpfungen, die megabasierte Lücken zwischen Contigs überbrücken. Im Hi-C-Protokoll wird Chromatin mit Formaldehyd vernetzt, mit einem Restriktionsenzym verdaut und so rekombiniert, dass DNA-Fragmente, die sich physisch nahe im Zellkern befinden, miteinander verknüpft werden. Die Sequenzierung dieser chimären Moleküle zeigt, welche Contigs zum gleichen Chromosom gehören und, entscheidend, ihre Reihenfolge und Orientierung. Der derzeit empfohlene Scaffold-Generator ist YaHS (Zhou et al., 2023), der in einer Studie von 2024 (Obinu et al., Frontiers in Bioinformatics) als bester Performer für Pflanzengenomen bewertet wurde und ein Scaffold N50 von 32,66 Mb im Vergleich zu 3,41 Mb für 3D-DNA mit demselben HiFi-Assembly-Eingang erreichte. Eine Mindestabdeckung von 100× Hi-C wird empfohlen; für große Genome (>3 Gb) bieten 150× robustere langreichweitige Kontakte. CD Genomics bietet spezialisierte Hi-C-Sequenzierung mit den Restriktionsenzymen DpnII und MboI, integriert in die YaHS-Scaffolding-Pipeline, um chromosomale Assemblierungen aus HiFi-Contig-Eingaben bereitzustellen.

Illumina Kurzlese — Die Genauigkeitsoptimierung

Selbst HiFi-Lesungen weisen systematische Fehler bei Homopolymer-Läufen und in extremen GC-Kontexten auf. Illumina-Kurzlesungen (2×150 bp, 30-50× Abdeckung) bieten orthogonale Fehlerkorrektur — das Fehlerprofil von Illumina ist substitutionsdominiert und unabhängig vom indel-dominierten Fehlerprofil von PacBio/ONT. Werkzeuge wie Pilon, NextPolish und POLCA verwenden Illumina-Lesenausrichtungen, um verbleibende Basisfehler in der Langleseassemblierung zu korrigieren, wodurch die Konsensgenauigkeit von ~Q40 (ein Fehler pro 10.000 bp) auf ~Q50-60 (ein Fehler pro 100.000 bis 1.000.000 bp) verbessert wird. Für Publikationsqualitäts-Referenzgenome ist das Polieren mit Illumina Standard.

Ein repräsentatives Ergebnis des Vertebrate Genomes Project veranschaulicht, was dieser Technologiestack in der Praxis liefert. Der östliche gestreifte Bandicoot (Perameles gunnii), ein gefährdeter Beuteltier mit einem ~3,6 Gb Genom, wurde auf Chromosomenebene unter Verwendung von 46× PacBio HiFi, 20× ONT ultralangen und 110× Hi-C-Daten assembliert. Die resultierende Assemblierung verankerte 97,8 % des Genoms in 14 Pseudochromosomen, die dem bekannten Karyotyp entsprechen, und erreichte eine Scaffold N50 von 155 Mb sowie eine BUSCO-Vollständigkeit von 95,7 % (mammalia_odb10). Die Gesamtkosten für die Sequenzierung betrugen etwa 12.000 US-Dollar – ein vollständiges Referenzgenom für eine Art mit Priorität im Naturschutz zu ungefähr den Kosten eines einzelnen Illumina-Menschen-Genoms vor einem Jahrzehnt.

Es Zusammenstellen — Ein Rezept für eine Vertreterversammlung

Für ein diploides, nicht-modelliertes Tiergenom von ~1,5 Gb mit moderater Heterozygotie (~1%):

Datentyp	Plattform	Abdeckung	Zweck	Ungefähre Kosten
Genomumfrage	Illumina NovaSeq 2×150	30-50×	k-mer-Analyse, Schätzung der Genomgröße/Heterozygotie/Wiederholungen	200-500 $
HiFi Montage	PacBio Revio	40×	Contig-Zusammenstellung, Haplotyp-Phasierung	4.000-6.000 €
Ultralang	ONT PromethION R10.4.1	15×	Wiederholte Überbrückung, Lückenfüllung	2.000-4.000 €
Hi-C	Illumina NovaSeq	100×	Chromosomen-skalige Gerüstbildung	1.500-2.500 $
Illumina Polieren	Illumina NovaSeq 2×150	30×	Basisfehlerkorrektur	300-500 $
Gesamt				8.000-13.500 $

Für ein Pflanzengenom ähnlicher Größe, aber mit Polyploidie oder >70 % Wiederholungsinhalt, erhöhen Sie die HiFi-Abdeckung auf 60× und die ONT-Abdeckung auf 20× und fügen Sie Bionano-Optik-Mapping zur unabhängigen Überprüfung der Gerüste hinzu — Gesamtkosten ca. 15.000-25.000 $.

CD Genomics bietet integrierte de-novo-Sequenzierungspakete an, die diese Datentypen in einen einzigen Projektworkflow kombinieren. Für die anspruchsvollsten Projekte — bei denen ein vollständiges, lückenloses Referenzgenom das ausdrückliche Ziel ist — liefert der T2T Genome Assembly Service vollständige Telomer-zu-Telomer-Assemblierungen mit aufgelösten Zentromeren, validiert durch die Identifizierung von Telomerwiederholungen an den Chromosomenenden und einer BUSCO-Vollständigkeit von >98%. Für Hinweise zur Auswahl der optimalen Assemblierungsstrategie für Ihr spezifisches Genom — einschließlich Technologie-Mix-Abwägungen, ploidy-bewusster Ansätze und Budgetoptimierung — siehe unser Genomassemblierungsstrategie Beratungsseite.

De Novo Genome Assembly Technology Stack: layered diagram showing PacBio HiFi, ONT Ultralong, Hi-C, and Illumina with their roles in assembly. Abbildung 1: De Novo Genom-Assemblierungstechnologie-Stack — Ein geschichtetes Diagramm, das die vier Datentypen und ihre Rollen zeigt. Obere Ebene: PacBio HiFi (30-60×, 15-25 kb Reads) mit der Bezeichnung "Contig Backbone." Zweite Ebene: ONT Ultralong (15-20×, 50-300+ kb Reads) mit der Bezeichnung "Repeat Spanner." Dritte Ebene: Hi-C (100×) mit der Bezeichnung "Chromosomen-Skalierer." Untere Ebene: Illumina (30×, 2×150 bp) mit der Bezeichnung "Genauigkeitsverfeinerung." Rechte Seite: finale Visualisierung der Assemblierung, die Contigs → skaliertes Chromosom → lückenfreies T2T-Chromosom zeigt.

Genomannotation — Die Assemblierung interpretierbar machen

Ein zusammengebautes Genom ohne Annotation ist eine Karte ohne Beschriftungen. Die Annotierungs-Pipeline verwandelt eine FASTA-Datei von Contigs in einen funktionell annotierten Genkatalog, der für vergleichende Genomik, Populationsgenetik und funktionale Studien geeignet ist. Für nicht-modellierte Eukaryoten hat die Annotierungs-Pipeline drei Phasen.

Phase 1: Wiederholte Maskierung

Vor der Genvorhersage müssen repetitive Elemente identifiziert und soft-maskiert werden (in Kleinbuchstaben umgewandelt, damit sie von Genvorhersagern ignoriert, aber nicht entfernt werden). Der Standardarbeitsablauf erstellt eine de-novo-Wiederholungsbibliothek mit RepeatModeler2, das repetitive Sequenzen ab initio identifiziert, indem es Sequenzen erkennt, die in mehreren Kopien über das Genom verteilt sind, und sie dann gegen RepBase klassifiziert (wenn die Wiederholungen des Organismus vertreten sind) oder Dfam. Die de-novo-Bibliothek wird dann von RepeatMasker verwendet, um Wiederholungen im gesamten Genom zu annotieren und soft-maskiert darzustellen. Für große Pflanzengenomen bietet EDTA (Extensive de-novo TE Annotator; Ou et al., 2019) eine schnellere, umfassendere Alternative, die speziell LTR-Retrotransposons behandelt – die dominante Wiederholungsklasse in den meisten Pflanzengenomen.

Phase 2: Genvorhersage

Eukaryotische Genvorhersage profitiert von der Integration mehrerer Beweislinien. BRAKER3 (Gabriel et al., 2021) ist der aktuelle Stand der Technik: Es führt GeneMark-ETP für die unbeaufsichtigte Genvorhersage ausschließlich aus der Genomsequenz aus, AUGUSTUS für die homologiegestützte Vorhersage unter Verwendung von Proteinbeweisen verwandter Arten (typischerweise das OrthoDB-Proteinset für die relevante taxonomische Klade) und RNA-seq-Leseausrichtungen (sofern verfügbar), um Exon-Intron-Grenzen mit Nukleotidauflösung zu definieren. TSEBRA kombiniert dann die Vorhersagen von GeneMark-ETP und AUGUSTUS zu einem gewichteten Konsens-Gen-Set. Für Organismen mit verfügbaren RNA-seq-Daten aus mehreren Geweben verbessert der RNA-seq-Modus von BRAKER3 die Genauigkeit der Genmodelle dramatisch, insbesondere für UTR-Grenzen und alternative Spleißisoformen. CD Genomics' RNA-Seq Der Service liefert die gewebespezifischen Transkriptnachweise – aus poly(A)-selektierten mRNA-Bibliotheken, die auf der Illumina NovaSeq-Plattform sequenziert wurden – die BRAKER3 verwendet, um Exon-Intron-Grenzen mit Nukleotidauflösung zu definieren. Für Nicht-Modellorganismen, bei denen vollständige Transkript-Isoformen die stärksten Beweise für die Genstruktur liefern, bietet CD Genomics' Vollständige Transkripte-Sequenzierung (Iso-Seq) Auf der PacBio-Plattform werden vollständige Transkript-Isoformen erfasst, ohne die Zusammenbau-Unklarheit von Kurzlese-Transkriptomen. Für tief nicht-modellierte Organismen, für die keine RNA-seq-Daten existieren, verwendet GALBA (Bruna et al., 2021) Proteinbeweise aus evolutionär entfernten Arten, um die Genvorhersage durch eine miniprot-basierte Protein-zu-Genom-Ausrichtungs-Pipeline zu leiten – wobei die artspezifische Genauigkeit gegen eine breite phylogenetische Anwendbarkeit eingetauscht wird.

Phase 3: Funktionale Annotation

Die vorhergesagten protein-codierenden Gene werden funktionell durch Sequenzähnlichkeit gegen kuratierte Datenbanken annotiert: NR (nicht-redundante Proteindatenbank), Swiss-Prot (manuell kuratiert), InterProScan (Proteindomänen und -familien über Pfam, SMART, PROSITE usw.), GO (Gene Ontologie), KEGG (Stoffwechselwege) und EggNOG (orthologe Gruppen). Dies ist ein rechenintensiver, aber gut standardisierter Prozess; bei einem Proteom mit 30.000 Genen kann InterProScan allein 12-24 Stunden auf einem 64-Kern-Server laufen. Pflanzen- und Tiergenom-De-Novo-Sequenzierung CD Genomics bietet funktionale Annotation als Standardkomponente jedes de novo Projekts an, mit Ergebnissen, die im GFF3-Format für Genombrowser und in tabulatorgetrennten Tabellen für die nachgelagerte Analyse organisiert sind.

Von der Zusammenstellung zur Veröffentlichung — QC, Einreichung und Standards

Eine de novo Genomassemblierung ist ein wissenschaftliches Produkt, das vor der Veröffentlichung und Einreichung in öffentliche Datenbanken die von der Gemeinschaft akzeptierten Qualitätsstandards erfüllen muss. Die wichtigsten Qualitätskontrollmetriken sind:

BUSCO-VollständigkeitBenchmarking universeller Einzelkopie-Orthologe — der Prozentsatz der konservierten Gene aus einem linien-spezifischen Gen-Set (z. B. vertebrata_odb10, embryophyta_odb10), die als vollständig und einzelkopiert wiederhergestellt wurden. >95% ist publikationswürdig; >98% ist referenzwürdig.

Kontiguität (N50)Die längengewichtete Median — 50 % der Assemblierung befinden sich in Contigs/Scaffolds dieser Größe oder größer. Bei Chromosomen-großen Assemblierungen sollte das Scaffold N50 die Größe eines typischen Chromosoms der Art erreichen.

QV (Konsensqualitätswert)Geschätzt von Merqury, das die k-mer Häufigkeiten zwischen der Assemblierung und den rohen Illumina-Lesungen vergleicht. QV >40 (ein Fehler pro 10 kb) ist Standard; QV >50 ist Publikationsqualität.

k-mer VollständigkeitDer Anteil der k-Mers aus den Illumina-Reads, die in der Assemblierung vorhanden sind, sollte 95 % für eine vollständige Assemblierung überschreiten.

Montage-zu-Referenz-AusrichtungWenn das Genom einer verwandten Art existiert, bestätigt eine Ganzgenom-Ausrichtung (MUMmer, minimap2 oder MashMap) die großflächige Syntenie und identifiziert potenzielle Fehlassemblierungen.

Das Earth BioGenome Project (EBP) empfiehlt die folgenden Mindeststandards für die Assemblierung eukaryotischer Genome: Contig N50 ≥ 1 Mb, Scaffold N50 ≥ 10 Mb (Chromosomen-skalige Verankerung), BUSCO-Vollständigkeit ≥ 90% und Konsens-QV ≥ 30. Referenzqualitätsgenome, die von NCBI RefSeq akzeptiert werden, müssen höhere Anforderungen erfüllen: Contig N50 ≥ 10 Mb (oder Chromosomenarm-Skala), BUSCO ≥ 95%, QV ≥ 40 und <5% Kontamination. In der höchsten Kategorie stehen T2T-Assemblierungen — wie die lückenlose Assemblierung von 2024. Gossypium hirsutum Das ZM113-Genom (26 Chromosomen, 0 Lücken, Contig N50 89,27 Mb, BUSCO 99,6 %, QV 42,9) stellt den aktuellen Goldstandard für vollständige eukaryotische Genome dar, wobei jedes Chromosom als eine einzige durchgehende Sequenz von Telomer zu Telomer gelöst ist.

Die Einreichung bei öffentlichen Datenbanken ist der letzte Schritt. NCBI GenBank verlangt, dass Assemblierungen den Foreign Contamination Screen (FCS) bestehen — der Adaptor-, Vektor- und Kreuzkontamination erkennt — bevor Zugangsnummern vergeben werden. Das European Nucleotide Archive (ENA) und die DNA Data Bank of Japan (DDBJ) haben ähnliche Validierungsprozesse. Am Ende jedes Projekts stellt CD Genomics einreichungsbereite Dateien zur Verfügung durch sein Whole Genome Sequenzierung Service — einschließlich maskierter Assembly FASTA, Genannotation GFF3 und funktionalen Annotations Tabellen — formatiert, um den Anforderungen von NCBI/ENA/DDBJ zu entsprechen, mit vorvalidierten FCS-Screening-Ergebnissen.

De Novo Genome Assembly Pipeline: 7-stage vertical workflow from sample collection to NCBI submission with timeline, tools, and deliverables. Abbildung 3: De Novo Genomassemblierungspipeline — Ein 7-stufiger vertikaler Workflow von der Probenentnahme bis zur Einreichung in öffentliche Datenbanken. Stufen: (1) Probenentnahme & DNA-Extraktion (Woche 1-2) → (2) Genomumfrage — GenomeScope 2.0 k-mer Analyse (Woche 2-3) → (3) HiFi + ONT Ultralong Sequenzierung (Woche 3-12) → (4) Hi-C Bibliotheksvorbereitung & Sequenzierung (Woche 8-13) → (5) Assemblierung & Scaffolding — hifiasm + YaHS (Woche 13-16) → (6) Genomanotation — RepeatModeler2/EDTA + BRAKER3 + InterProScan (Woche 16-20) → (7) QC & NCBI/ENA/DDBJ Einreichung — BUSCO, Merqury, FCS (Woche 20-24). Jede Stufe ist mit wichtigen Werkzeugen, geschätzter Dauer und primären Ergebnissen annotiert.

Praktische Überlegungen zu De-Novo-Projekten

DNA — Hier beginnt alles

Die Qualität der de novo Assemblierung ist durch die DNA-Qualität nach oben begrenzt. Für PacBio HiFi sind ≥5-15 µg HMW-DNA mit Fragmenten ≥30 kb erforderlich; der Femto Pulse oder PFGE wird verwendet, um die Fragmentgrößenverteilung vor der Bibliotheksvorbereitung zu überprüfen. Für ONT-Ultra-Long-Sequenzierung sind ≥10 µg DNA mit einem N50 ≥50 kb – idealerweise ≥100 kb – erforderlich; das Circulomics Nanobind-Kit oder ein modifiziertes Phenol-Chloroform-Protokoll wird für die Extraktion empfohlen. DNA von einem einzelnen Individuum wird für die de novo Assemblierung stark bevorzugt; das Poolen mehrerer Individuen führt zu künstlicher Heterozygotie, die die Kontinuität der Assemblierung und die Haplotypauflösung beeinträchtigt.

Für Organismen, bei denen die Gewebemenge begrenzend ist — kleine Wirbellose, Embryonen, Herbariumsproben, Museumsproben — Whole-Genome-Sequenzierung Niedrigaufwändige Arbeitsabläufe bei CD Genomics können HiFi-Bibliotheken aus nur 500 ng DNA erzeugen, obwohl die Zusammenbau-Kontiguität im Vergleich zu Hochaufwandsprotokollen verringert wird.

Projektplanungszeitraum

Ein typisches de novo Genomprojekt für einen 1-2 Gb Nicht-Modellorganismus folgt diesem Zeitplan:

Woche 1-2Probenentnahme, DNA-Extraktion, Qualitätskontrolle, Genomüberwachung-Sequenzierung

Woche 2-3GenomeScope k-mer Analyse, Sequenzierungsstrategie abschließen

Woche 3-8PacBio HiFi Bibliotheksvorbereitung und Sequenzierung (30-60×)

Woche 3-12ONT ultralange Bibliotheksvorbereitung und Sequenzierung (15-20×)

Woche 8-13Hi-C Bibliotheksvorbereitung und Sequenzierung (100×)

Woche 13-16: Assemblierung (hifiasm), Gerüstbau (YaHS), Politur (NextPolish), Qualitätskontrolle (BUSCO, Merqury)

Woche 16-20Annotation (RepeatMasker → BRAKER3 → InterProScan)

Woche 20-24Manuelle Kuratierung, Erstellung von Abbildungen, Einreichung bei NCBI

Insgesamt: 4-6 Monate von der Probe bis zum bei NCBI eingereichten Referenzgenom.

Für einen umfassenderen Überblick darüber, wie das de novo Sequenzieren von Pflanzen und Tieren in das breitere WGS-Landschaft passt – von bakteriellen Genomen bis hin zur großflächigen Populations-Re-Sequenzierung – siehe unser Hub für Dienstleistungen zur gesamten GenomsequenzierungFür die de novo-Assemblierung auf Bakterienmaßstab, die einem speziellen Workflow für kleine (3-7 Mb) prokaryotische Genome folgt, siehe unser Leitfaden zur bakteriellen Gesamten GenomsequenzierungFür Projekte, die ausschließlich auf Langsequenzierung angewiesen sind, bietet CD Genomics' Langsequenzierungsdienste PacBio- und ONT-Plattformen für gezielte Anwendungen. Für einen umfassenden Leitfaden zur Langsequenzierung über alle Anwendungen hinweg – von der Erkennung struktureller Varianten bis hin zur Voll-Längen-Transkriptionsequenzierung und Epigenetik – siehe unser Langzeit-Sequenzierungsdienste Für jede Anwendung.

Häufig gestellte Fragen

Was ist eine de novo Genomassemblierung und wann wird sie benötigt?

Die De-novo-Genomassemblierung rekonstruiert eine vollständige Genomsequenz aus überlappenden Sequenzierungsreads ohne eine Referenzvorlage. Sie ist erforderlich, wenn kein hochqualitatives Referenzgenom für die Art existiert – was für die überwiegende Mehrheit der Pflanzen und Tiere auf der Erde der Fall ist. Wenn ein eng verwandtes Referenzgenom verfügbar ist, kann eine referenzgestützte Assemblierung oder Neusequenzierung schneller und kostengünstiger sein.

Wie viel kostet die de novo Genomsequenzierung für ein Pflanzen- oder Tiergenom?

Die Kosten steigen mit der Größe und Komplexität des Genoms. Ein diploides Genom mit 500 Mb auf Chromosomenebene kostet ungefähr 5.000-10.000 $. Ein Genom mit 1-2 Gb in T2T-Qualität kostet 10.000-20.000 $. Große polyploide Pflanzengenomen (5-16 Gb) können 20.000-35.000 $ kosten. Diese Schätzungen beinhalten Sequenzierung, Assemblierung, Scaffold-Erstellung und grundlegende Annotation.

Warum wird eine Genomuntersuchung vor einer vollständigen de novo Sequenzierung empfohlen?

Eine Genomumfrage im Wert von 200-500 USD (oberflächliche Illumina-Analyse + GenomeScope k-mer-Analyse) schätzt die Genomgröße, Heterozygotie, Wiederholungsinhalt und Ploidie. Diese Informationen bestimmen, wie viel Sequenzierung benötigt wird, welche Plattformen optimal sind und ob spezialisierte Phasierungs- oder polyploidbewusste Assemblierungsstrategien erforderlich sind – um kostspielige Unter- oder Übersequenzierung zu vermeiden.

Was ist der Unterschied zwischen Chromosomenmaßstab und T2T-Assembly?

Eine Chromosomen-skalierte Assemblierung hat Contigs, die in Chromosomen geordnet und orientiert sind, kann jedoch Lücken in repetitiven Regionen (Zentromeren, rDNA-Arrays) enthalten. Eine T2T (Telomer-zu-Telomer) Assemblierung ist lückenlos – jedes Chromosom ist eine durchgehende Sequenz von Telomer zu Telomer, einschließlich zuvor schwer zugänglicher Regionen wie Zentromeren. T2T erfordert ONT-Ultra-Langreads zusätzlich zu HiFi und Hi-C.

Benötige ich Hi-C-Daten für mein de novo-Genom?

Für veröffentlichungswürdige Referenzgenome, ja. Hi-C liefert die Langstreckenverknüpfungsinformationen, die benötigt werden, um Kontigs in vollständige Chromosomen zu ordnen und auszurichten. Ohne Hi-C kann eine HiFi-Assemblierung eines 1 Gb Genoms 500-2.000 Kontigs erzeugen; mit Hi-C-Scaffolding ist typischerweise >90% der Assemblierung in Chromosomen-große Scaffolds verankert, die dem erwarteten Karyotyp entsprechen.

Welche DNA-Eingaben sind für die de-novo-Sequenzierung von Pflanzen und Tieren erforderlich?

Für PacBio HiFi: ≥5 µg HMW-DNA, Fragmente ≥30 kb. Für ONT ultralang: ≥10 µg DNA, N50 ≥50 kb (idealerweise ≥100 kb). Für Hi-C: ≥1-2 µg quergelinktes DNA. DNA sollte von einem einzelnen Individuum für die de novo Assemblierung stammen; gepoolte Proben führen zu künstlicher Heterozygosität.

Wie lange dauert ein de novo Genomprojekt von der Probe bis zur abgeschlossenen Assemblierung?

Ein typischer Projektzeitrahmen beträgt 4-6 Monate: Probenvorbereitung (1-2 Wochen), Genomumfrage (2-3 Wochen), Sequenzierung (6-12 Wochen, abhängig von den Datentypen), Assemblierung und Scaffoldierung (3-4 Wochen), Annotation (4 Wochen) und Kuratierung/Einreichung (4 Wochen). Beschleunigte Zeitrahmen sind für einzelne Datentypen verfügbar.

Welche bioinformatischen Ergebnisse sind in einem de novo Sequenzierungsprojekt von CD Genomics enthalten?

Standardlieferungen: Rohsequenzierungsdaten (FASTQ), QC-Bericht, assembliertes Genom (FASTA), BUSCO/QV/k-mer QC-Metriken, Wiederholungsannotation (GFF), Genvorhersage (GFF3) und funktionale Annotation (GO, KEGG, InterProScan, Swiss-Prot, NR). Publikationsbereite Dateien im Format für die Einreichung bei NCBI/ENA/DDBJ sind enthalten.

Referenzen:

Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Haplotype-resolute de novo-Assemblierung unter Verwendung von phasierten Assemblierungsgraphen mit hifiasm. Naturmethoden. 2021;18(2):170-175. doi:10.1038/s41592-020-01056-5
Obinu L, Dettori G, Lemay MA, et al. Benchmarking von Hi-C-Tools zur Strukturierung von Pflanzengenomen, die aus PacBio HiFi- und ONT-Reads gewonnen wurden. Grenzen der Bioinformatik. 2024;4:1462923. doi:10.3389/fbinf.2024.1462923
Ranallo-Benavidez TR, Jaron KS, Schatz MC. GenomeScope 2.0 und Smudgeplot für referenzfreie Profilierung von polyploiden Genomen. Naturkommunikation. 2020;11(1):1432. doi:10.1038/s41467-020-14998-3
Gabriel L, Hoff KJ, Bruna T, et al. TSEBRA: Transkriptselektor für BRAKER. BMC Bioinformatik2021;22(1):566. doi:10.1186/s12859-021-04482-0
Rhie A, Walenz BP, Koren S, Phillippy AM. Merqury: referenzfreie Bewertung von Qualität, Vollständigkeit und Phasierung für Genomassemblierungen. Genomik Biologie. 2020;21(1):245. doi:10.1186/s13059-020-02134-9
Zhou C, McCarthy SA, Durbin R. YaHS: noch ein Hi-C-Scaffolding-Tool. Bioinformatik2023;39(1):btac808. doi:10.1093/bioinformatics/btac808
Manni M, Berkeley MR, Seppey M, Simao FA, Zdobnov EM. BUSCO-Update: Neue und optimierte Arbeitsabläufe sowie breitere und tiefere phylogenetische Abdeckung zur Bewertung eukaryotischer, prokaryotischer und viraler Genome. Molekulare Biologie und Evolution2021;38(10):4647-4654. doi:10.1093/molbev/msab199
Ou S, Su W, Liao Y, et al. Benchmarking-Methoden zur Annotation von transponierbaren Elementen zur Erstellung einer optimierten, umfassenden Pipeline. Genom Biologie2019;20(1):275. doi:10.1186/s13059-019-1905-y

Nur zu Forschungszwecken, nicht zur klinischen Diagnose, Behandlung oder individuellen Gesundheitsbewertung gedacht.