Kurzfassung

Die Zeitreihenprognose spielt als Entscheidungswerkzeug in vielen Wirtschaftsbereichen eine wichtige Rolle. Weil Zeitreihen-Datensätze im Zuge von Big Data in ihrer Größe als auch in ihrer Auflösung zunehmen, ist eine Modellidentifikation und -schätzung auf Einzelzeitreihen nicht mehr praktikabel. Daher wurde am Lehrstuhl für Datenbanken das Cross-Sectional-Autoregressionsmodel CSAR entwickelt, welches Identifikation und Schätzung auf einer Menge von Zeitreihen, einer Partition, durchführt. Zur effektiven Partitionierung kann neben der rohwert- und modellbasierten Ähnlichkeit von Zeitreihen auch die merkmalsbasierte Ähnlichkeit eingesetzt werden, die durch ein neuronales Netz gelernt wird. Ziel dieser Bachelorarbeit ist die Entwicklung einer Partitionierung von Zeitreihen-Datensätzen auf erlernten Merkmalen und deren Einsatz mit CSAR. Das Verfahren ist auf synthetischen und realen Datensätzen zu evaluieren und hinsichtlich seiner Genauigkeit mit anderen Partitionierungstechniken zu vergleichen.

Ausgangssituation

Die Zeitreihenprognose ist ein wichtiges Entscheidungswerkzeug in vielen Wirtschaftsbereichen. Basierend auf Modellidentifikation und -schätzung entwickelt sie ein Modell, das die zukünftige Entwicklung einer Zeitreihe möglichst genau wiedergibt. Im Zuge von Big Data nehmen die Größe und die Auflösung von Zeitreihen-Datensätzen zu, weshalb eine Modellidentifikation und -schätzung auf Einzelzeitreihen sehr zeitaufwändig und nicht praktikabel ist.

Dieser Herausforderung begegnet das Cross-Sectional-Autoregressionsmodell CSAR, das am Lehrstuhl entwickelt wurde. Es identifiziert und schätzt ein Modell auf mehreren Zeitreihen gleichzeitig, wodurch diese Vorgänge schneller durchgeführt werden. Die Genauigkeit der Prognose ist dabei vergleichbar hoch zu herkömmlichen Prognosemethoden auf Einzelzeitreihen; teilweise kann sie sogar verbessert werden.

Eine Verbesserung der Prognose kann darüber hinaus durch die Partitionierung des Datensatzes erzielt werden. Bisher wurde für die Partitionierung die rohwert- und modellbasierte Repräsentation der Zeitreihen genutzt. Eine weitere vielversprechende Partitionierung ist die merkmalsbasierte Repräsentation, welche für einen gegebenen Datensatz erlernt wird.

Aufgabenstellung

Aufgabe dieser Bachelorarbeit ist die Entwicklung einer Partitionierung von Zeitreihen-Datensätzen auf erlernten Merkmalen für den Einsatz mit CSAR. Dies umfasst folgende Teilaufgaben:

  • Einarbeitung in Repräsentationsmethoden und zugehörigen Distanzmaßen von Zeitreihen für die Partitionierung
  • Einarbeitung in neuronale Netze zur merkmalsbasierten Repräsentation von Zeitreihen, insbesondere Auto-Encoder und rekurrente neuronale Netze
  • Einarbeitung und Vergleich von Partitionierungstechniken für die merkmalsbasierte Repräsentation von Zeitreihen
  • Konzeption und Implementierung einer Partitionierung von Zeitreihen für die CSAR-Prognose. Für die Repräsentation sollen Merkmale durch ein selbst entwickeltes neuronales Netz erlernt werden. Anschließend ist zu untersuchen, inwieweit sich die Partitionierung auf die Genauigkeit der CSAR-Prognose auswirkt.
  • Evaluation der Partitionierung anhand synthetischer und reeller Datensätze
  • Verwandte Arbeiten

    Liao, T. W. (2005). Clustering of time series data – a survey. Pattern Recognition, 38, 1857-1874. https://doi.org/10.1016/j.patcog.2005.01.025

    Chollet, F. (2018). Deep Learning with R bzw. Chollet, F. (2017). Deep Learning with Python.

    Gromykina, A. (2018). Partitionierung von Zeitreihendatensätzen für das CSAR-Modell.

    Hartmann, C., Ressel, F., Hahmann, M., Habich, D., & Lehner, W. (2019). CSAR : the cross-sectional autoregression model for short and long-range forecasting. Int J Data Sci Anal. https://doi.org/10.1007/s41060-018-00169-7

    Abgabe

    Verteidigung