Bachelor Thesis Felix Johannes Völpel | Database Research Group

Bachelor Thesis
June 3rd, 2019 until August 18th, 2019

Kurzfassung

Die Zeitreihenprognose spielt als Entscheidungswerkzeug in vielen Wirtschaftsbereichen eine wichtige Rolle. Weil Zeitreihen-Datensätze im Zuge von Big Data in ihrer Größe als auch in ihrer Auflösung zunehmen, ist eine Modellidentifikation und -schätzung auf Einzelzeitreihen nicht mehr praktikabel. Daher wurde am Lehrstuhl für Datenbanken das Cross-Sectional-Autoregressionsmodel CSAR entwickelt, welches Identifikation und Schätzung auf einer Menge von Zeitreihen, einer Partition, durchführt. Zur effektiven Partitionierung kann neben der rohwert- und modellbasierten Ähnlichkeit von Zeitreihen auch die merkmalsbasierte Ähnlichkeit eingesetzt werden, die durch ein neuronales Netz gelernt wird. Ziel dieser Bachelorarbeit ist die Entwicklung einer Partitionierung von Zeitreihen-Datensätzen auf erlernten Merkmalen und deren Einsatz mit CSAR. Das Verfahren ist auf synthetischen und realen Datensätzen zu evaluieren und hinsichtlich seiner Genauigkeit mit anderen Partitionierungstechniken zu vergleichen.

Ausgangssituation

Die Zeitreihenprognose ist ein wichtiges Entscheidungswerkzeug in vielen Wirtschaftsbereichen. Basierend auf Modellidentifikation und -schätzung entwickelt sie ein Modell, das die zukünftige Entwicklung einer Zeitreihe möglichst genau wiedergibt. Im Zuge von Big Data nehmen die Größe und die Auflösung von Zeitreihen-Datensätzen zu, weshalb eine Modellidentifikation und -schätzung auf Einzelzeitreihen sehr zeitaufwändig und nicht praktikabel ist.

Dieser Herausforderung begegnet das Cross-Sectional-Autoregressionsmodell CSAR, das am Lehrstuhl entwickelt wurde. Es identifiziert und schätzt ein Modell auf mehreren Zeitreihen gleichzeitig, wodurch diese Vorgänge schneller durchgeführt werden. Die Genauigkeit der Prognose ist dabei vergleichbar hoch zu herkömmlichen Prognosemethoden auf Einzelzeitreihen; teilweise kann sie sogar verbessert werden.

Eine Verbesserung der Prognose kann darüber hinaus durch die Partitionierung des Datensatzes erzielt werden. Bisher wurde für die Partitionierung die rohwert- und modellbasierte Repräsentation der Zeitreihen genutzt. Eine weitere vielversprechende Partitionierung ist die merkmalsbasierte Repräsentation, welche für einen gegebenen Datensatz erlernt wird.

Aufgabenstellung

Aufgabe dieser Bachelorarbeit ist die Entwicklung einer Partitionierung von Zeitreihen-Datensätzen auf erlernten Merkmalen für den Einsatz mit CSAR. Dies umfasst folgende Teilaufgaben:

Einarbeitung in Repräsentationsmethoden und zugehörigen Distanzmaßen von Zeitreihen für die Partitionierung
Einarbeitung in neuronale Netze zur merkmalsbasierten Repräsentation von Zeitreihen, insbesondere Auto-Encoder und rekurrente neuronale Netze
Einarbeitung und Vergleich von Partitionierungstechniken für die merkmalsbasierte Repräsentation von Zeitreihen
Konzeption und Implementierung einer Partitionierung von Zeitreihen für die CSAR-Prognose. Für die Repräsentation sollen Merkmale durch ein selbst entwickeltes neuronales Netz erlernt werden. Anschließend ist zu untersuchen, inwieweit sich die Partitionierung auf die Genauigkeit der CSAR-Prognose auswirkt.
Evaluation der Partitionierung anhand synthetischer und reeller Datensätze

Abgabe

Verteidigung

Student Theses

Partitioning and Cross-Sectional Forecasting of Time Series based on Learned Features

by Felix Johannes Völpel

Kurzfassung

Ausgangssituation

Aufgabenstellung

Verwandte Arbeiten

Abgabe