Schroeder, F. (2012). Classification in high-dimensional feature spaces [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-55586
Die charakteristische Eigenschaft vieler Daten aus modernen Wissenschaften wie z.B. der Genetik ist die Vielzahl an Variablen. Dies stellt eine große Herausforderung für statistische Verfahren der Klassifikation dar und wurde in den letzten Jahren intensiv untersucht.<br />In dieser Arbeit soll studiert werden, wie die klassischen Methoden der Klassifikation, die Diskriminanzanalyse, die Support Vector Machines und die Logistische Regression, für die Anwendung auf hochdimensionale Räume modifiziert werden können. In mehreren Simulationsexperimenten sollen sowohl die Güte der Prognose als auch der Modellselektion miteinander verglichen werden. Dabei wurden verschiedene Parameter wie Stichprobengröße oder das Verhältnis von Signal und Noise und verschiedene Strukturen der Abhängigkeit variiert. Die Resultate sollen die Wahl der richtigen Methode für eine konkrete Fragestellung und einen konkreten Datensatz unterstützen.<br />
de
The characteristic property of many data sets in modern scientific fields, such as genomics, is the high-dimensionality of its feature space. It poses a significant challenge for statistical methods for classification and has thus been the object of intensive research in the past decade. This work studies the different approaches, with which standard classification methods, such as Discriminant Analysis, Support Vector Machines and Logistic Regression, have been modified to account for high-dimensionality, and compares their performance in different simulation experiments. Both the prediction as well as the model selection performance are examined under different parameters, including sample size, signal-to-noise ratios, and different structures of dependence. The results are supposed to guide the applied researcher in one of the most tricky questions: Choosing the most suitable method for a given research question and data set.