Lustig, T. (2008). Contribution to the WebRowSet technology for advanced data preprocessing [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://resolver.obvsg.at/urn:nbn:at:at-ubtuw:1-24072
WebRowSet Data Preprocessing Data Mining KDD Grid Computing Distributed Computing
en
Abstract:
Diese Diplomarbeit steht im Kontext des GridMiner Projekts am Institut für Scientific Computing der Universität Wien. Das GridMiner Projekt hat den Schwerpunkt auf der Wissensextraktion aus grossen Datenbasen (KDD Prozess). Die Aufgabe der Datenaufbereitung wird meistens auf einer gewöhnlichen Workstation ausgeführt, da für eine hohe Qualität des Ergebnisses oft eine manuelle Bearbeitung nötig ist und automatische Methoden nur bedingt eingesetzt werden können. Allerdings ergeben sich bei der Bearbeitung auf der Wokstation wesentliche Einschränkungen gegenüber dem Grid bezüglich des verfügbaren Speichers (RAM) und der Rechenleistung. Diese neuen Softwarekomponenten verfolgen einen out-of-core Ansatz und zeigen eine signifikant bessere Skalierung beim Verarbeiten von Daten als das bisher möglich war. Zur Optimierung der Rechenzeit auf der Workstation, wurden die nötigen statistischen Berechnungen der Rohdaten vom Client zum Server hin verlagert. Die Statistiken werden jetzt im Zuge eines definierten Workflows mittels des neu entwickelten Statistikmoduls berechnet und das Ergebnis im Anschluss als XML Daten zur Verfügung gestellt. Der Client kann dazu das Statistikmodul feingranular konfigurieren um unnötigen Rechenaufwand auf der Serverseite zu vermeiden.<br />Bereits existierende XML Bibliotheken und APIs wurden hinsichtlich ihres Speicherverbrauchs und der Zugriffsmöglichkeiten innerhalb der XML Struktur evaluiert. Dabei konnte keine Java Bibliothek gefunden werden, die sowohl wahlfreien Zugriff und minimalen Speicherverbrauch bietet. Um grosse WebRowSet Dateien verarbeiten zu können wurde die bereits vorhandene WebRowSet Schnittstelle von Java neu implementiert. Dabei wurde eine neue Indexierungsmethode gewählt um den benötigten Speicher gering zu halten.
de
The Austrian GridMiner project at the Institute of Scientific Computing at the University of Vienna has the aim to develop an e-Science infrastructure to support knowledge discovery tasks in databases (KDD). For this kind of applications, the Grid serves as the underlying architecture allowing to extend storage and computing power.<br />One major task of the KDD is the preprocessing stage, where huge datasets have to be processed. It consumes approximately 60% of the entire KDD processing time. That is the reason why it offers a significant potential for optimization. The preprocessing stage itself is often performed on workstation computers and not on the Grid, because the human interaction at some important subtasks of this stage provides a better quality than having everything done automatically. Therefore two major problems which need to be solved occur when carving out the data from the high performance Grid to a standard workstation: much lower main memory and CPU power. Just these issues are addressed by this Master Thesis.<br />The GridMiner architecture includes a subsystem of data access and integration based on the middleware called OGSA-DAI. To accelerate the preprocessing task, in our approach, the needed basic statistic calculations are shifted from the client side to the server side (the Grid). The statistics are calculated in advance inside the GridMiner. To optimize the main memory (RAM) consumption, the software provides an out-of-core design.<br />