Kurzfassung

An der Professur Datenbanken wurden der Forschungsprototyp DeExcelarator entwickelt, dessen Ziel es ist, skalierbar und automatisch relational strukturierte Daten aus einer großen Anzahl von Exceldateien zu extrahieren. Dafür werden Exceldateien in ein internes Format überführt und für jede Zelle über 200 Eigenschaften extrahiert. Diese Eigenschaften werden genutzt um Zellen einer bestimmten vordefinierten Klasse (z.B. Daten, Attribut, Header usw.) zuzuordnen. Der dafür notwendige Klassifikator würde anhand eines Trainingsdatensatzes bestehend aus 465 Arbeitsblätter und mehr als 800.000 Zellen trainiert. Anschließend werden pro Sheet die jeweiligen Tabellen identifiziert und diese anschließend in ein kanonisches Format überführt.

Das Ziel dieser Bachelorarbeit soll es sein die Funktionsweise und den Nutzen des DeExcelarators sichtbar und erlebbar zu machen. Dazu ist mittels C# eine Excel-Add-in zu entwickeln das es ermöglicht, die oben beschriebenen Verarbeitungsschritte aus Excel heraus zu steuern. Die bereits existierenden Funktionen (z.B. der Klassifikator und der Tabellen-Identifikator) sind dafür als REST-Dienst zu kapseln um diese aus Excel heraus auszurufen. Das Ergebnis der Funktion ist entsprechend in Excel zu visualisieren, z.B. indem die Zellen eines Arbeitsblattes entsprechend ihrer Kategorie eingefärbt werden.