Seyfang, L. (2008). Heuristiken zur Variablenselektion bei hochdimensionalen Daten [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-19644
In dieser Arbeit werden einige Heuristiken zur Variablenselektion bei großen multivariaten Datensätzen verglichen.<br />Dabei werden sowohl einfache, schnelle als auch aufwändigere und kombinierte Methoden betrachtet.<br />Für alle behandelten Methoden und einige Hilfsfunktionen ist der R-Code angegeben.<br />Die verschiedenen Heuristiken führen zu sehr unterschiedlichen Modellen im Hinblick auf die beteiligten Variablen.<br />Bezüglich des optimierten Gütekriteriums und des simulierten Prognosefehlers unterscheiden sich die Resultate aber nur wenig.<br />Einige Methoden wurden bezüglich ihrer Robustheit auf Veränderung der Trainingsdaten untersucht.<br />Dabei wurde festgestellt, dass die resultierenden Modelle stärker von dem verwendeten Teil-Datensatz als von der verwendeten Methode abhängen.<br />Weiters wird die Erzeugung künstlicher Datensätze diskutiert und eine Funktion zu diesem Zweck vorgestellt.<br />Hilfsmethoden, u. a. zur Reduktion von großen Datensätzen, für die Kreuzvalidierung und für die Referenzmethode Stepwise sind ebenfalls angegeben.<br />
de
This work compares several subset selection techniques for large datasets.<br />Simple, fast, as well as more complex and combined heuristics are considered.<br />For all described methods and some subroutines the R-code is listed.<br />The different methods lead to very varying models regarding the involved variables.<br />However, in terms of the optimised information criterion and the simulated prediction error the models are quite similar.<br />The robustness in relation to the used data portion was evaluated for several algorithms.<br />It was found, that the results tend to depend on the used data portion rather than on the used selection technique.<br />Furthermore the generation of artificial datasets is discussed and a method for this purpose is introduced.<br />Subroutines, among other tools for downsizing datasets, for cross-validation and the standard method 'stepwise', are given.<br />