In den letzten Jahren ist die Liste an Koniferen-Spezies mit komplett sequenzierten, annotierten Genomen stetig gewachsen. Darunter befinden sich Spezies wie Pseudotsuga menziesii var. menziesii, Picea abies, Picea glauca and Pinus taeda. Ein internationales Konsortium mit Mitgliedern unter anderem in Barcelona, Wien und Trient hat sich die Genomsequenzierung von Abies alba (Weiß-Tanne) zum Ziel gesetzt.
Um den Scaffolding-Prozess mittels assemblierter Transkripte unterstützten zu können hat sich das BFW (Bundesforschungs- und Ausbildungszentrum für Wald, Naturgefahren und Landschaft) in Wien mit der RNA-Sequenzierung und dem de novo assembly des Transkriptoms beschäftigt. Die Extraktion und Isolation von mRNA aus haploiden Sämlingsgewebe und diploidem Nadelgewebe resultierte in solch niedriger Konzentration, dass das umschreiben in cDNA nicht erfolgreich durchgeführt werden konnte. Daher wurden Illumina HiSeq2000 paired-end RNA-Sequenzierungs Reads einer anderen Arbeitsgruppe verwendet. Die Assemblies wurden mit Trinity, Velvet und SOAPdenovo-Trans erstellt. Insgesamt wurden 25 Assemblies mit variierender k-mer Länge erstellt die zwischen 2238 und 64753 contigs beinhalten. Verschiedene Tools kamen zum Einsatz, um die Auswirkung variierender k-mer Länge auf die Assembly Qualität zu beurteilen. Sowohl im genomischen Assembly, als auch in den Transkriptom-Assemblies wurde ein GC-Gehalt von rund 42% festgestellt. Contig- und Transkript-Statistiken wurden erhoben, Reads wurden gegen die Assemblies gemappt, Hits in Sequenz-Datenbanken wurden erhoben und nicht-kodierende Transkripte gezählt. Die N50-Länge beträgt 2144nt für das Trinity Assembly, 2095nt für SOAP und 2252nt für das Velvet Assembly. Außerdem wurde das RSEM-EVAL Programm verwendet um ein referenz-freies Qualitätsmerkmal zu erhalten, dass auch Transkript-Genauigkeit miteinbezieht. Das Trinity Assembly erzielte den höchsten RSEM-EVAL Score von -9.33E+8, verglichen mit Velvet, das einen Score von -1.14E+9 erzielte und SOAP7 mit einem Score von -1.45E+9. Die verschiedenen Assembly-Metriken wurden erhoben, um die Auswirkung der variierenden k-mer Größen-Parameter auf die Assembly-Qualität, zu evaluieren. Ein Trinity Assembly wurde verwendet, um offene Leserahmen (ORFs) vorherzusagen. Diese ORFs wurden anschließend gefiltert und gegen das Draft-Genome aligned. In den alignierten Contigs wurden Gene mittels ab initio Methoden vorhergesagt. Eine Genvorhersage mittels GeneMark-ES, ohne Verwendung transkriptomischer Information, resultierte in 13.6 Millionen vorhergesagter Gene, wovon der Großteil falsch-positive sind.
Eine wesentlich spezialisiertere Herangehensweise unter der Verwendung von GlimmerHMM und Augustus, wobei nur Gene mit vorhandener Referenz-Sequenz behalten wurden, die von beiden Tools vorhergesagt werden konnten, resultierte in 37749 Genen. Davon konnten 37,317 Gene mit einer UniProt Referenz-Sequenz mittels blastp annotiert werden und über 20,000 dieser Gene konnten mit Einträgen aus mindestens fünf Sequenzdatenbanken annotiert werden (UniProt, KEGG, EggNOG, Pfam, GO). Diese Liste an Genen wurde anschließend verwendet, um eine Anzahl an bestimmter Fettsäure-Enzyme von Interesse zu identifizieren und ihre Position auf den Transkripten und Contigs zu ermitteln.