• search hit 6 of 1170
Back to Result List

Computing efficient data summaries

Berechnung effizienter Datenzusammenfassungen

  • Extracting meaningful representations of data is a fundamental problem in machine learning. Those representations can be viewed from two different perspectives. First, there is the representation of data in terms of the number of data points. Representative subsets that compactly summarize the data without superfluous redundancies help to reduce the data size. Those subsets allow for scaling existing learning algorithms up without approximating their solution. Second, there is the representation of every individual data point in terms of its dimensions. Often, not all dimensions carry meaningful information for the learning task, or the information is implicitly embedded in a low-dimensional subspace. A change of representation can also simplify important learning tasks such as density estimation and data generation. This thesis deals with the aforementioned views on data representation and contributes to them. We first focus on computing representative subsets for a matrix factorization technique called archetypal analysis and the setting of optimal experimental design. For these problems, we motivate and investigate the usability of the data boundary as a representative subset. We also present novel methods to efficiently compute the data boundary, even in kernel-induced feature spaces. Based on the coreset principle, we derive another representative subset for archetypal analysis, which provides additional theoretical guarantees on the approximation error. Empirical results confirm that all compact representations of data derived in this thesis perform significantly better than uniform subsets of data. In the second part of the thesis, we are concerned with efficient data representations for density estimation. We analyze spatio-temporal problems, which arise, for example, in sports analytics, and demonstrate how to learn (contextual) probabilistic movement models of objects using trajectory data. Furthermore, we highlight issues of interpolating data in normalizing flows, a technique that changes the representation of data to follow a specific distribution. We show how to solve this issue and obtain more natural transitions on the example of image data.
  • Das Extrahieren sinnvoller Repräsentationen von Daten ist ein grundlegendes Problem im maschinellen Lernen. Diese Repräsentationen können aus zwei verschiedenen Perspektiven betrachtet werden. Zum einen gibt es die Repräsentation von Daten in Bezug auf die Anzahl der Datenpunkte. Repräsentative Teilmengen helfen große Datenbestände kompakt zusammenzufassen. Dazu werden beispielsweise überflüssige Redundanzen weggelassen. Diese Teilmengen erlauben es, bestehende Lernalgorithmen hochzuskalieren, ohne deren Lösung zu approximieren. Zum anderen gibt es die Repräsentation jedes einzelnen Datenpunktes in Bezug auf seine Dimensionen. Oft tragen nicht alle Dimensionen sinnvolle Informationen, oder Informationen sind implizit in einem niedrigdimensionalen Unterraum eingebettet. EinWechsel der Repräsentation kann auch wichtige Verfahren wie die Dichteschätzung und die Datengenerierung vereinfachen. Diese Arbeit beschäftigt sich mit den oben genannten Perspektiven zur Datenrepräsentation und leistet einen Beitrag dazu. Wir konzentrieren uns zunächst auf die Berechnung repräsentativer Teilmengen für die Archetypenanalyse und auf das Setting der optimalen Versuchsplanung. Für diese Probleme motivieren und untersuchen wir die Brauchbarkeit der Punkte am Rand der Daten repräsentative Teilmenge. Außerdem stellen wir neuartige Methoden zur effizienten Berechnung dieser Randpunkte vor. Basierend auf dem Coreset-Prinzip leiten wir eine weitere repräsentative Teilmenge für die Archetypenanalyse her, welche zusätzliche theoretische Garantien bietet. Empirische Ergebnisse bestätigen, dass alle kompakten Repräsentationen von Daten, die in dieser Arbeit vorgestellt werden, deutlich besser abschneiden als zufällige Untermengen. Im zweiten Teil der Arbeit beschäftigen wir uns mit effizienten Datenrepräsentationen für die Dichteschätzung. Wir analysieren raum-zeitliche Probleme, die z.B. in der Sportanalytik auftreten, und zeigen, wie man (kontextuelle) probabilistische Bewegungsmodelle von Objekten anhand von Trajektoriendaten lernt. Darüber hinaus untersuchen wir Probleme der Interpolation von Daten beiNormalizing Flows, einem Verfahren, das die Darstellung von Daten so verändert, dass sie einer vorgegebenen Wahrscheinlichkeitsverteilung folgen. Wir zeigen am Beispiel von Bilddaten, wie man dieses Problem löst und natürlichere Interpolationsübergänge erhält.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Sebastian MairGND
URN:urn:nbn:de:gbv:luen4-opus4-12466
URL: https://pub-data.leuphana.de/frontdoor/index/index/docId/1246
Advisor:Ulf Brefeld (Prof. Dr.)
Referee:Ulf Brefeld (Prof. Dr.)ORCiDGND, Stephan Günnemann (Prof. Dr.)ORCiDGND, Søren Hauberg (Prof. Dr.)ORCiD
Document Type:Doctoral Thesis
Language:English
Year of Completion:2022
Date of Publication (online):2022/07/28
Date of first Publication:2022/07/28
Publishing Institution:Leuphana Universität Lüneburg, Universitätsbibliothek der Leuphana Universität Lüneburg
Granting Institution:Leuphana Universität Lüneburg
Date of final exam:2021/12/24
Release Date:2022/07/28
Institutes:Fakultät Wirtschaftswissenschaften / Institut für Wirtschaftsinformatik (IIS)
Licence (German):License LogoDeutsches Urheberrecht