Proteomische Technologien sind fundamental wichtige Werkzeuge der biologischen und medizinischen Forschung. Mit modernen Massenspektrometern können Forscher innerhalb von wenigen Stunden tausende Proteine in biologischen Proben detektieren und quantifizieren. Für die Protein-Quantifizierung werden isotop-kodierte Labels verwendet, mit denen die Proteine der jeweiligen Proben markiert werden können. Besonders populär sind die isobaren Methoden iTRAQ und TMT, mit welchen bis zu 10 Proben in einem Experiment verglichen werden können.
Die Daten von diesen Experimenten haben eine komplexe Struktur, sind hoch-dimensional und verrauscht. Obwohl die passende statistische Modellierung und effiziente Software essentiell für den Erfolg der Datenanalyse sind, gibt auf dem Bereich der quantitativen Proteomik wenig umfassende und offene bioinformatische Analyseframeworks. In dieser Arbeit wird deshalb ein bioinformatisches Softwarepaket und statistisches Rahmenwerk entwickelt, welche die Analyse von quantitativen proteomischen Daten ermöglichen und erleichtern.
Der erste Teil dieser Arbeit beschreibt statistische Modelle welche eine bessere Inferenz für quantitative proteomische Experimente ermöglichen; durch die Modellierung der technischen Variabilität mit einer intensitätsabhängigen Varianzfunktion und der biologischen Variabilität mittels einer endlastigen Verteilung. Die Leistungsfähigkeit dieser Methode wurde an speziell erzeugten Test-Datensätzen getested, welche gleichbleibende Hintergrundproteine und eingemischten Proteine in bekannten Konzentrationen beinhaltet. Mittels Resampling konnte demonstriert werden, das die Methode sowohl die Rate der falsch-positiv selektierten Proteine kontrolliert, als auch eine gute Performanz im selektieren echt positiver Proteine hat. An weiteren biologischen Datensätzen wurde weiters gezeigt, dass die Methode mit unterschiedlichen Massenspektrometern und Setups funktioniert.
Die Modelle wurden in einem neuartigen R-Softwarepaket namens isobar implementiert, welches Teil des Bioconductor-Projekt ist. Zusammen mit dem statistischen Rahmenwerk implementiert isobar Methoden für einen kompletten Workflow von massenspektrometrischen Peaklisten zur Proteinquantifizierung und Analyseergebnissen im PDF und XLS Format. Protein-Gruppierung wird innerhalb des Paket implementiert. Eine Analyse kann automatisiert und in vorhandede Analyse-Pipelines integriert werden. isobar ist nach den Bioconductor Design-Prinzipien konzipiert und in dem objektorientierten S4 Klassensystem implementiert.
Die oben genannte Methoden und Software wurden für die Quantifizierung von Protein-Unterschiede entwickelt. Neben der unterschiedlichen Expression von Proteinen, sind post-translationale Modifikationen (PTM) zentrale Modulatoren der Proteinfunktion. PTMs sind von großer Bedeutung in vielen Forschungsfragen, und können ebenfalls mit Massenspektrometrie identifiziert und quantifiziert werden. Im zweiten Teil der Arbeit werden deswegen die statistischen Modelle und das R-Paket für die quantitative PTM Analyse erweitert. Dies inkludiert die Integration von Modulen zur Lokalisierung der Modifikation in der Peptidsequenz, die Anpassung des PTM-Ratios mit Protein-Ratios, und das Erstellen von erweiterten Analyseberichten mit spezifischen Details zu identifizierten PTMs.
Die Methoden und die Software wurden in mehreren Publikationen angewendent und erweitert. Das isobar-Paket wird weiters über einhundert mal pro Monat über Bioconductor installiert. Abschließend kann gesagt werden, dass diese Arbeit mit neuer bioinformatischer Software und Methoden zur Weiterentwicklung der Proteinforschung mit iTRAQ und TMT beiträgt.