Kurzfassung

Im Rahmen des Forschungsprojekts Loom werden Methoden zur Generierung von Zeitreihen-Datensätzen untersucht. Ziel ist es, Zeitreihen zu generieren, die zu den Eigenschaften, den sog. Features, eines gegebenen Datensatzes passen. Bisher wurde die Ähnlichkeit nur auf einzelnen Zeitreihen validiert, zum Beispiel durch den Vergleich von Features oder durch Visualisierung. Ziel dieser Diplomarbeit ist die Formalisierung einer systematischen, strukturierten Validierung der Ähnlichkeit, die für umfangreiche Datensätze geeignet ist. Anhand eines Prototypen und unter Nutzung von Datensätzen verschiedener Domänen ist zu untersuchen, mit welchen Features ein Zeitreihen-Datensatz charakterisiert werden kann und welche Ähnlichkeit die gewählten Generierungsmethoden erreichen.

Ausgangssituation

Im Rahmen des Forschungsprojekts Loom werden Methoden zur Generierung von Zeitreihen-Datensätzen untersucht. Sie werden unterschieden in Methoden, die Modelle von Zeitreihen für die Generierung nutzen, und in Methoden, die Zeitreihen direkt von gegebenen Zeitreihen erzeugen. Dabei sollen die generierten Zeitreihen zu den Eigenschaften, den sog. Features, der gegebenen Zeitreihen passen, was überprüft werden muss. Die übliche Validierung bestand bisher in der Prüfung einzelner Zeitreihen, beispielweise durch den Vergleich der Features oder durch Visualisierung. Aufgrund des Umfangs erzeugter Zeitreihen-Datensätze in Loom reicht diese Herangehensweise nicht aus.

Aufgabenstellung

Ziel der Diplomarbeit ist die Konzeption einer systematischen, strukturierten Validierung von generierten Zeitreihen-Datensätzen, die die Einsatzfähigkeit verschiedener Methoden der Zeitreihengenerierung untersucht.
Wesentliche Fragestellungen sind dabei:

  • Erstellung einer Übersicht von Methoden der Zeitreihengenerierung aus der Literatur. Diese Methoden sind hinsichtlich verschiedener Eigenschaften zu vergleichen.
  • Charakterisierung eines Zeitreihen-Datensatzes mithilfe von Features und Visualisierung der Features mithilfe geeigneter Diagramme.
  • Konzeption einer systematischen Validierung für den Vergleich generierter Zeitreihen mit gegebenen Zeitreihen. Hierbei sind geeignete Methoden der Zeitreihenähnlichkeit zu erfassen und zu begründen, inwieweit sie für die Validierung umfangreicher Datensätze geeignet sind.
  • Implementierung von modellbasierten und modellfreien Generierungsmethoden, der Charakterisierung von Datensätzen sowie der automatischen Validierung in einem Prototyp (in R oder Java).
  • Evaluation des Prototyps anhand ausgewählter Datensätze, zum Beispiel aus den Bereichen Energie, Wirtschaft und Wetter. Diese Datensätze sind zunächst mithilfe geeigneter Features zu charakterisieren. Anschließend ist zu untersuchen, welche Generierungsmethoden sich für welche Datensätze besonders eignen.