Aufgabenstellung

In typischen DataScience-Umgebungen werden komplexe Reports als Einstieg in eine hypothesenbasierte Datenanalyse genutzt. Dabei sind Reports als komplexe, meist 2-dimensionale und an der visuellen Repräsentation als Tabellen orientierte Datenstrukturen zu sehen, die aus einer Vielzahl heterogener Bestandteile bestehen. In klassischen Architekturansätzen auf Basis relationaler Datenbanksysteme werden komplexe Reports in eine Menge homogener SQL-Anfragen abgebildet und dann isoliert voneinander ausgeführt.

Moderne Datenanalysesysteme brechen die Eigenschaft der deskriptiven Anfrageformulierung auf und erlauben die Modellierung von Datenflussgraphen, in welchen eine Mischung klassisch relationaler Operatoren und anwendungsspezifischer Code möglich ist.

Im Rahmen der Arbeit soll nun untersucht werden, wie komplexe Reportstrukuren auf Datenflussgraphen abgebildet werden können, wobei die Ausnutzung gemeinsamer Pfade als wesentliches Optimierungskriterium zu berücksichtigen ist. Als Plattform ist Apache Spark zu wählen. Aus Ausgangspunkt für die Abbildung ist eine Vorschlag zu erarbeiten, wie komplexe Strukturen formal spezifiziert und die auf der Implementierungsebene berücksichtigten und relevanten Optimierungsstrategien auf der formalen Ebene reflektiert werden können (z.B. Erkennung gemeinsamer Pfade durch Anwendung des Distributivgesetzes).

Als Testumgebung erfolgt eine Zusammenarbeit mit der GfK SE (Nürnberg), welche sowohl reale Datenbestände als auch Beispiele komplexer Berichte liefert, sodass ein qualitativer und – sofern realisierbar – auch quantitativer Vergleich der reinen SQL- mit einer datenflussbasierten Abbildung ermöglicht wird.