Kenov, A. (2019). Comparison of different machine learning algorithms for action recognition [Diploma Thesis, Technische Universität Wien]. reposiTUm. https://doi.org/10.34726/hss.2019.52601
E376 - Institut für Automatisierungs- und Regelungstechnik
-
Date (published):
2019
-
Number of Pages:
80
-
Keywords:
Bildverarbeitung; Robotik; Machinelles Lernen
de
Computer vision; Robotics; Machine Learning
en
Abstract:
Mit der zunehmenden Anzahl von Robotern, die an unserem Privatund Geschäftsleben teilnehmen, wird die Komplexität der Aufgaben, die sie ausführen, zunehmen. Wenn sie den Tisch aufräumen oder in einer Fabrik mitarbeiten, können Roboter das Wissen zur Durchführung neuer Aufgaben am einfachsten anhand mehrerer Beispiele erlernen. Roboter müssen daher in der Lage sein, aus Sensordaten abgeleitete menschliche Handlungen korrekt zu erkennen und zu wiederholen. Zu diesem Zweck werden Modelle des maschinellen Lernens an aufgezeichneten Datensätzen aus dem Bereich der Erkennung menschlicher Handlungen trainiert. Die verfügbaren Datensätze weisen häufig eine geringe Anzahl von Trainingssequenzen auf, was zu einer Überanpassung des Modells und deswegen einer schlechten Generalisierungsleistung führen kann. Eine geringe Klassifizierungsgenauigkeit aufgrund fehlender Trainingsdaten zu überwinden ist eine schwierige Herausforderung. Verschiedene Augmentationstechniken können die Trainingsergebnisse verbessern, indem sie kleine Datensätze künstlich ergänzen. In dieser Arbeit werden verschiedene Ansätze des maschinellen Lernens zur Erkennung menschlicher Handlungen unter Verwendung von Skelettdaten vorgestellt und verglichen. Der Fokus liegt darauf, wie unterschiedliche Augmentationstechniken die Genauigkeit von menschlicher Aktionserkennung verbessern können. Für den Vergleich der Augmentationstechniken wurden drei maschinelle Lernmodelle ausgewählt - ein “Convolutional Neural Network”, ein “Recurrent Neural Network” und ein Hybridnetz, das beide kombiniert. Die untersuchten Augmentationstechniken für menschliche Skelettgelenk-Koordinaten sind Skalierung, Verschiebung, Rauschen, Unterabtastung und Interpolation. Die Modelle wurden mit drei öffentlich verfügbaren Benchmark-Datensätzen trainiert. Die relative Verbesserung pro Augmentationstyp wurde aus den experimentellen Ergebnissen abgeleitet. Die Auswertung der Ergebnisse zeigt, dass die Verschiebungs-Augmentation die stärkste Auswirkung auf alle Modelle hat, gefolgt von der Skalierung-Augmentation. Das “Recurrent Neural Network” zeigt die grössten Verbesserungen durch die Verwendung der Datenaugmentierung. Das Hybridmodell erreicht die höchste absolute Genauigkeit und ist von den angewendeten Augmentationen weniger betroffen.
de
With the increasing rate robots take part in our private and business life, the complexity of the tasks they perform will grow. If cleaning up the table at home or co-working in a factory, one of the easiest ways for robots to acquire the knowledge for performing these new tasks is by learning from multiple examples. Therefore, robots have to be able to correctly recognize and mimic human actions derived from sensor data. To achieve this, supervised machine learning models are trained on recorded datasets from the domain of human action recognition. The available datasets often have small numbers of training sequences, which often results in model overfitting and poor generalization performance. Low classification accuracy due to lack of training data creates a significant challenge. Diverse augmentation techniques can improve the training results by artificially enhancing small datasets. This thesis presents and compares different machine learning approaches for human action recognition using tracked skeletal data. The focus is on how different data augmentation techniques can facilitate recognition accuracy. For the performance measurement of each augmentation technique three machine learning models have been selected - a baseline convolutional neural network, a simple recurrent neural network and an improved hybrid one, a combination of the aforementioned. The implemented augmentation techniques for human skeleton joint coordinates are scale, shift, noise, subsample and interpolation. The models have been trained on three publicly available benchmark datasets. The relative improvement per augmentation type has been derived from the experimental results. The evaluation of the results reveals that the shift augmentation has the strongest impact on all models, followed by the scale augmentation. The recurrent model displays the largest capacity for augmentation enhancements. The hybrid model achieves the highest absolute accuracy and is less affected by the applied augmentations.
en
Additional information:
Abweichender Titel nach Übersetzung der Verfasserin/des Verfassers