Kurzfassung

Die Zeitreihenprognose spielt als Entscheidungswerkzeug in vielen Wirtschaftsbereichen eine wichtige Rolle. Weil Zeitreihen-Datensätze im Zuge von Big Data in ihrer Größe als auch in ihrer Auflösung zunehmen, ist eine Modellidentifikation und -schätzung auf Einzelzeitreihen nicht mehr praktikabel. Daher wurde am Lehrstuhl für Datenbanken das Cross-Sectional-Autoregressionsmodel CSAR entwickelt, welches Identifikation und Schätzung auf einer Menge von Zeitreihen, einer Partition, durchführt. Zur effektiven Partitionierung kann neben der rohwert- und modellbasierten Ähnlichkeit von Zeitreihen auch die merkmalsbasierte Ähnlichkeit eingesetzt werden, die sich in vielen Anwendungen als effizient und robust gezeigt hat. Ziel dieser Bachelorarbeit ist die Entwicklung einer merkmalsbasierten Partitionierung von Zeitreihen-Datensätzen und deren Einsatz mit CSAR. Das Verfahren ist auf synthetischen und realen Datensätzen zu evaluieren und hinsichtlich seiner Genauigkeit mit anderen Partitionierungstechniken zu vergleichen.

Ausgangssituation

Die Zeitreihenprognose ist ein wichtiges Entscheidungswerkzeug in vielen Wirtschaftsbereichen. Basierend auf Modellidentifikation und -schätzung entwickelt sie ein Modell, das die zukünftige Entwicklung einer Zeitreihe möglichst genau wiedergibt. Im Zuge von Big Data nehmen die Größe und die Auflösung von Zeitreihen-Datensätzen zu, weshalb eine Modellidentifikation und -schätzung auf Einzelzeitreihen sehr zeitaufwändig und nicht praktikabel ist.

Dieser Herausforderung begegnet das Cross-Sectional-Autoregressionsmodell CSAR, das am Lehrstuhl entwickelt wurde. Es identifiziert und schätzt ein Modell auf mehreren Zeitreihen gleichzeitig, wodurch diese Vorgänge schneller durchgeführt werden. Die Genauigkeit der Prognose ist dabei vergleichbar hoch zu herkömmlichen Prognosemethoden auf Einzelzeitreihen; teilweise kann sie sogar verbessert werden.

Eine Verbesserung der Prognose kann darüber hinaus durch die Partitionierung des Datensatzes erzielt werden. Bisher wurde für die Partitionierung die rohwert- und modellbasierte Repräsentation der Zeitreihen genutzt. Eine weitere effiziente und interpretierbare Partitionierung erfolgt durch die merkmalsbasierte Repräsentation, die Grundlage dieser Aufgabenstellung ist.

Aufgabenstellung

Ziel dieser Bachelorarbeit ist die Entwicklung einer merkmalsbasierten Partitionierung von Zeitreihen-Datensätzen für den Einsatz mit CSAR. Diese umfasst folgende Teilaufgaben:

  • Einarbeitung und Vergleich von Repräsentationsmethoden (rohwert-, modell-, merkmalsbasiert) und zugehörigen Distanzmaßen von Zeitreihen für die Partitionierung
  • Einarbeitung und Vergleich von Partitionierungstechniken für die merkmalsbasierte Repräsentation von Zeitreihen
  • Konzeption und Implementierung einer merkmalsbasierten Partitionierung von Zeitreihen für die CSAR-Prognose. Für die Repräsentation sind selbst entwickelte oder öffentliche verfügbare Merkmale (hctsa, tsfresh) einzusetzen. Anschließend ist zu untersuchen, inwieweit sich die Partitionierung auf die Genauigkeit der CSAR-Prognose auswirkt.
  • Evaluation der Partitionierung anhand synthetischer und reeller Datensätze
  • Verwandte Arbeiten

    Liao, T. W. (2005). Clustering of time series data – a survey. Pattern Recognition, 38, 1857-1874. https://doi.org/10.1016/j.patcog.2005.01.025

    Hartmann, C., Hahmann, M., Habich, D., & Lehner, W. (2017). CSAR : The Cross-sectional Autoregression Model. In Proc. of DSAA. https://doi.org/10.1109/DSAA.2017.27

    Kegel, L., Hahmann, M., & Lehner, W. (2018). Feature-based comparison and generation of time series. In Proc. of SSDBM. https://doi.org/10.1145/3221269.3221293

    Gromykina, A. (2018). Partitionierung von Zeitreihendatensätzen für das CSAR-Modell.

    Hartmann, C., Ressel, F., Hahmann, M., Habich, D., & Lehner, W. (2019). CSAR : the cross-sectional autoregression model for short and long-range forecasting. Int J Data Sci Anal. https://doi.org/10.1007/s41060-018-00169-7

    Abgabe

    Bachelorarbeit
    Verteidigung