Titelaufnahme

Titel
Transkriptom- und Populations-Analyse in Abies alba mittels bioinformatischer Routinen / Vorgelegt von: Martin Gollobich
Weitere Titel
Population and Transcriptome Analysis in Abies alba Using Bioinformatics Tools
Autor*innenGollobich, Martin
BetreuerTatto, Nadine Elpida
Erschienen2019
Anmerkung
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
Datum der AbgabeJanuar 2019
SpracheEnglisch
DokumenttypMasterarbeit
SchlagwörterWien
Schlagwörter (DE)RNA-Seq / NGS / de novo assembly / Gen-Vorhersage / Funktionale Annotation
Schlagwörter (EN)RNA-Seq / NGS / de novo assembly / gene finding / functional annotation
URNurn:nbn:at:at-fhcw:1-4568 
Zugriffsbeschränkung
 Das Dokument ist frei verfügbar
Links
Nachweis
Dateien
Klassifikation
Zusammenfassung

In den letzten Jahren ist die Liste an Koniferen-Spezies mit komplett sequenzierten, annotierten Genomen stetig gewachsen. Darunter befinden sich Spezies wie Pseudotsuga menziesii var. menziesii, Picea abies, Picea glauca and Pinus taeda. Ein internationales Konsortium mit Mitgliedern unter anderem in Barcelona, Wien und Trient hat sich die Genomsequenzierung von Abies alba (Weiß-Tanne) zum Ziel gesetzt.

Um den Scaffolding-Prozess mittels assemblierter Transkripte unterstützten zu können hat sich das BFW (Bundesforschungs- und Ausbildungszentrum für Wald, Naturgefahren und Landschaft) in Wien mit der RNA-Sequenzierung und dem de novo assembly des Transkriptoms beschäftigt. Die Extraktion und Isolation von mRNA aus haploiden Sämlingsgewebe und diploidem Nadelgewebe resultierte in solch niedriger Konzentration, dass das umschreiben in cDNA nicht erfolgreich durchgeführt werden konnte. Daher wurden Illumina HiSeq2000 paired-end RNA-Sequenzierungs Reads einer anderen Arbeitsgruppe verwendet. Die Assemblies wurden mit Trinity, Velvet und SOAPdenovo-Trans erstellt. Insgesamt wurden 25 Assemblies mit variierender k-mer Länge erstellt die zwischen 2238 und 64753 contigs beinhalten. Verschiedene Tools kamen zum Einsatz, um die Auswirkung variierender k-mer Länge auf die Assembly Qualität zu beurteilen. Sowohl im genomischen Assembly, als auch in den Transkriptom-Assemblies wurde ein GC-Gehalt von rund 42% festgestellt. Contig- und Transkript-Statistiken wurden erhoben, Reads wurden gegen die Assemblies gemappt, Hits in Sequenz-Datenbanken wurden erhoben und nicht-kodierende Transkripte gezählt. Die N50-Länge beträgt 2144nt für das Trinity Assembly, 2095nt für SOAP und 2252nt für das Velvet Assembly. Außerdem wurde das RSEM-EVAL Programm verwendet um ein referenz-freies Qualitätsmerkmal zu erhalten, dass auch Transkript-Genauigkeit miteinbezieht. Das Trinity Assembly erzielte den höchsten RSEM-EVAL Score von -9.33E+8, verglichen mit Velvet, das einen Score von -1.14E+9 erzielte und SOAP7 mit einem Score von -1.45E+9. Die verschiedenen Assembly-Metriken wurden erhoben, um die Auswirkung der variierenden k-mer Größen-Parameter auf die Assembly-Qualität, zu evaluieren. Ein Trinity Assembly wurde verwendet, um offene Leserahmen (ORFs) vorherzusagen. Diese ORFs wurden anschließend gefiltert und gegen das Draft-Genome aligned. In den alignierten Contigs wurden Gene mittels ab initio Methoden vorhergesagt. Eine Genvorhersage mittels GeneMark-ES, ohne Verwendung transkriptomischer Information, resultierte in 13.6 Millionen vorhergesagter Gene, wovon der Großteil falsch-positive sind.

Eine wesentlich spezialisiertere Herangehensweise unter der Verwendung von GlimmerHMM und Augustus, wobei nur Gene mit vorhandener Referenz-Sequenz behalten wurden, die von beiden Tools vorhergesagt werden konnten, resultierte in 37749 Genen. Davon konnten 37,317 Gene mit einer UniProt Referenz-Sequenz mittels blastp annotiert werden und über 20,000 dieser Gene konnten mit Einträgen aus mindestens fünf Sequenzdatenbanken annotiert werden (UniProt, KEGG, EggNOG, Pfam, GO). Diese Liste an Genen wurde anschließend verwendet, um eine Anzahl an bestimmter Fettsäure-Enzyme von Interesse zu identifizieren und ihre Position auf den Transkripten und Contigs zu ermitteln.

Abstract

During the past years the list of conifer species with a fully sequenced and annotated genome kept growing - including species like Pseudotsuga menziesii var. menziesii, Picea abies, Picea glauca and Pinus taeda. The AForGen project, which is an international consortium of scientists interested in the genetic resources of montane forests is determined in further increasing this list by sequencing the genome of Abies alba.

To assist the scaffolding process of the genomic assembly a team working together at the BFW (Bundesforschungs- und Ausbildungszentrum für Wald, Naturgefahren und Landschaft) in Vienna, Austria is concerned with the RNA sequencing of Abies alba and the de novo assembly of the transcriptome. The isolation of mRNA from diploid needle tissue and haploid seedling tissue yielded too little concentrations to produce cDNA. Therefore, Illumina HiSeq2000 paired-end RNA sequencing reads from a different work group have been used for the assembly with three different De Bruijn graph assemblers – namely Trinity, Velvet and SOAPdenovo-Trans. In total, 25 different k-mer sized assemblies, withholding between 2238 and 64753 transcripts, have been created, further processed and evaluated. In the genomic assembly as well as the transcriptome assemblies a GC content of about 42% was reported. Contig and transcript metrics have been compiled, the percentage of reads mapping to the assemblies has been collected, reference hits and non-coding reference hits have been counted. For the Trinity assembly of k-mer size 25, an N50 value of 2144nt was reported, 2095nt for the SOAP assembly and 2252nt for the Velvet assembly. The RSEM-EVAL package has been used to gain a reference-free quality measure that also considers transcript accuracy. The Trinity assembly had the highest RSEM-EVAL score of -9.33E+8, as compared to Velvet with -1.14E+9 and SOAP with a score of -1.45E+9. This variety of metrics was used to determine the impact of varying k-mer parameters on assembly quality. Open reading frames have been predicted in a Trinity assembly, filtered, aligned to draft genome scaffolds and genes have been ab initio predicted in those contigs. A basic gene prediction without transcriptome information using GeneMark-ES resulted in 13.6 million predicted genes. A more refined gene prediction approach using GlimmerHMM and Augustus, while only keeping reference-supported genes predicted by both tools yielded 37749 genes of which 37317 were annotated with a UniProt reference hit. Over 20,000 of these genes were annotated with information from at least 5 different sequence databases (UniProt, KEGG, EggNOG, Pfam, GO). The gene list was used to identify contigs and transcript sequences containing a number of certain fatty acid enzymes of interest.

Statistik
Das PDF-Dokument wurde 80 mal heruntergeladen.
Lizenz-/Rechtehinweis
Creative Commons Namensnennung 4.0 International Lizenz