Bachelor Thesis Franz Glöckner | Database Research Group

Bachelor Thesis
August 12th, 2019 until October 27th, 2019

Kurzfassung

Die Ähnlichkeitssuche von Zeitreihen mit Indexen ist eine wichtige Voraussetzung für viele Data-Mining-Aufgaben und eine Herausforderung in der Forschung. Eine Zeitreihe ist ein hoch-dimensionaler Datentyp, dessen Repräsentation speicher- und dessen Vergleich zeitaufwändig ist. Form-basierte Repräsentationstechniken wie Symbolic Aggregate Approximation (SAX) lösen diese Herausforderungen durch eine reduzierte und indexierbare Repräsentation mit einem effizienten Distanzmaß. Darüber hinaus berücksichtigen die saison- und trend-bereinigte SAX-Repräsentation, sSAX und tSAX, das deterministische Saison- und Trend-Verhalten, das in einer Vielzahl von Domänen auftritt. Bisher wurden die Distanzmaße für sSAX und tSAX nur für den symmetrischen Vergleich zweier Zeitreihen definiert. Ziel dieser Bachelorarbeit ist die Entwicklung eines asymmetrischen Distanzmaßes und deren Einsatz in einem baum-basierten Index, durch den die Ähnlichkeitssuche noch effizienter gestaltet werden kann.

Ausgangssituation

Zeitreihen sind eine wichtige Datenquelle für die Automatisierung und für Data-Mining-Aufgaben in vielen Domänen. Eine wichtige Voraussetzung dieser Anwendungen ist die Ermittlung ähnlicher Zeitreihen, die Ähnlichkeitssuche. Aufgrund ihrer Länge sind Zeitreihen hoch-dimensional. Üblicherweise werden sie nicht direkt miteinander verglichen, sondern durch eine Repräsentation in geringerer Dimension und mit einem Distanzmaß, welches den Vergleich durch die Euklidische Distanz abschätzt.

Die formbasierte Repräsentation Symbolic Aggregate Approximation (SAX) ist für die Ähnlichkeitssuche gut geeignet [1, 2]. Sie zerlegt eine Zeitreihe in Segmente und repräsentiert jedes Segment durch seinen Mittelwert, welcher zusätzlich noch diskretisiert wird. Dadurch ergibt sich eine kleine Repräsentation und ein schnelles Distanzmaß. Diese Distanz bildet dabei eine untere Schranke für die Euklidische Distanz zweier Zeitreihen, welche ein effizientes Pruning bei der Ähnlichkeitssuche ermöglicht. Ferner ist die SAX-Repräsentation indexierbar, wie durch iSAX gezeigt wurde [3].

Basierend auf SAX wurde die saison- und trend-bereinigte Repräsentation, sSAX und tSAX, entwickelt. Die Berücksichtigung dieser zwei Komponenten Saison und Trend, die in vielen Domänen auftreten, ermöglicht eine verbesserte Symbolverteilung, eine genauere Repräsentation und letztlich eine effizientere Ähnlichkeitssuche, was anhand eines symmetrischen Ähnlichkeitsmaßes nachgewiesen wurde [4].

Aufgabenstellung

Aufgabe dieser Bachelorarbeit ist die Entwicklung eines asymmetrischen Distanzmaßes für sSAX und tSAX und dessen Einsatz in einem Index. Als asymmetrische Distanz wird dabei der Vergleich einer reellwertigen mit einer diskretisierten Repräsentation verstanden. Dabei sind folgende Teilaufgaben zu erfüllen:

Einarbeitung in die formbasierten Repräsentationsmethoden SAX, sSAX und tSAX
Einarbeitung in die Index-basierte Ähnlichkeitssuche mit iSAX
Konzeption asymmetrischer Distanzmaße für sSAX und tSAX mit dem Nachweis, dass sie eine untere Schranke der Euklidischen Distanz bilden, und Konzeption eines Baum-basierten Indexes für die Repräsentationen
Implementierung der asymmetrischen Distanzmaße und des Baum-basierten Indexes für die exakte und die approximative Ähnlichkeitssuche
Evaluation der asymmetrischen Ähnlichkeitssuche anhand synthetischer und realer Datensätze mit Vergleich zur asymmetrischen Ähnlichkeitssuche, basierend auf einem linearen Suchverfahren und auf dem Baum-basierten Index

Student Theses

Asymmetric and Indexable Time Series Matching with sSAX and tSAX

by Franz Glöckner

Kurzfassung

Ausgangssituation

Aufgabenstellung

Verwandte Arbeiten