Fritz, H. (2007). Plausibility of databases and the relation to imputation methods [Master Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-15728
Robust; Imputation; PCA; Principal Component Analysis; Missings
en
Abstract:
Subject of this diploma thesis is the robust estimation of the plausibility of the content of databases, as well as the development of novel algorithms for estimating missing values.<br />The estimation of the plausibility of a set of observations basically depends on the main structure which stands behind these data.<br />Observations which fit into this estimated structure seem more plausible, than observations with large distance to such structure estimates. For representing the structure of a data set principal components are used in this context. Since single observations which do not follow the main structure of a data set (outliers) should not influence such an estimation, robust methods are considered primarily in this context The estimation of missing values is based on principal component analysis as well. The values of missings are chosen in a way, such that they are located as good as possible on the principal components.<br />Iteratively principal components are estimated, and the observations are projected onto them until convergence of this process. In this context existing algorithms have been improved concerning the quality of imputation and runtime behavior. In particular this improvement focuses on the projection methods which are used to project observations containing missings onto principal components.<br />A package which implements this functionality for the statistical software R is being developed right now, and will appear soon.<br />
de
Inhalt der Masterarbeit ist im wesentlichen die robuste Schätzung der Plausibilität von Datenbeständen, sowie die Entwicklung und effiziente Implementierung neuartiger, robuster Algorithmen zur Schätzung fehlender Werte.<br />Die Einschätzung der Plausibilität einer Menge an Beobachtungen basiert im Groben auf einer Schätzung der den Daten zugrunden liegenden Struktur. Wie gut eine einzelne Beobachtung dieser Gesamtstruktur entspricht, gibt Aufschluss über deren Plausibilität. Um die Grundstruktur zu repräsentieren, werden hier Hauptkomponenten (Principal Components) verwendet. Da einzelne Beobachtungen, die nicht der Grundstruktur angehören (Ausreißer), die Schätzung nicht allzu stark beeinflussen sollen, werden in diesem Zusammenhang durchgehend robuste Methoden verwendet. Auch die Ermittlung fehlender Werte basiert auf einer ersten Schätzung der Hauptkomponenten. Die Werte von sogenannten Missings werden so gewählt, dass die zugehörigen Beobachtungen möglichst gut auf den geschätzten Hauptkomponenten zu liegen kommen. Iterativ werden Hauptkomponenten geschätzt, und die betroffenen Beobachtungen auf diese projiziert, bis dieser Prozess an einem gewissen Punkt konvergiert. In disesem Zusammenhang wurden vorhandene Algorithmen bezüglich der Güte der Schätzung fehlende Werte sowie ihrer Laufzeit verbessert. Im Speziellen zielt diese Verbesserung auf das Projektionsverfahren ab, mit dem Beobachtungen mit Missings auf die Hauptkomponenten projiziert werden.<br />Ein komplettes Paket, welches diese Funktionalität für die Software R implementiert ist bereits in Arbeit und wird demnächst erscheinen.<br />