Kurzfassung

Datentransformationsprozesse als Vorbereitung zur Nutzung von Daten durch analytische Anwendungen gewinnen mehr und mehr an Bedeutung. Im Rahmen dieser Arbeit stehen mengenorientierte Transformationen im Vordergrund, die versuchen, einen gewissen Ausschnitt eines Datenbestands inhaltlich von Artefakten zu befreien. Die Arbeit umfasst dabei sowohl einen methodischen und implementierungstechnischen, als auch einen experimentellen Anteil. Im methodischen Anteil ist in einem ersten Schritt das im Beispielszenario eingesetzte Regelwerk zu untersuchen, zu systematisieren/formalisieren und in einem weiteren Schritt mit alternativen Ansätze aus dem Bereich der statistischen Datenbanken bewertend zu vergleichen. Im Anschluss daran ist der Prozess der Qualitätskontrolle für eine skalierbare Lösung prototypisch zu realisieren und am Beispiel echter Marktforschungsdaten zu evaluieren. Hierbei sind unterschiedliche Parametrierungen auszutesten und entsprechend ihrer inhaltlichen Effekte zu bewerten. Die Ergebnisse sind inhaltlich mit den Fachabteilungen des Kooperationspartners zu diskutieren.

Inhaltliche Beschreibung

Datentransformationsprozesse als Vorbereitung zur Nutzung von Daten durch analytische Anwendungen gewinnen mehr und mehr an Bedeutung. Derartige Prozesse lassen sich unterschiedlich klassifizieren. So finden klassische syntaktische Transformationen wie Anpassung von Zeitangaben oder einfache, inhaltliche Transformationen wie Währungs- und Einheitenumrechnungen skalar, d.h. pro Datensatz, statt. Im Rahmen dieser Arbeit stehen mengenorientierte Transformationen im Vordergrund, die versuchen, einen gewissen Ausschnitt eines Datenbestands von Erhebungsartefakten zu befreien, so dass beispielsweise Ausreißer erkannt oder Hochrechnungsfaktoren, die ein inhaltliches Gewicht für einen gegebenen Datensatz repräsentieren, so angepasst werden, dass ein aktueller Datenbestand zu historischen Datenbeständen der gleichen Domäne wertemäßig „passt“. Derartige Transformationen unterliegen einem Regelwerk mit entsprechender Parametrierung für unterschiedliche Ausschnitte des Datenbestandes. In Rahmen dieser Diplomarbeit sind derartige Prozesse für die Qualitätskontrolle empirisch erhobener Massendaten am Beispiel von Marktforschungsdaten zu untersuchen. Diese Untersuchung umfasst dabei sowohl einen methodischen und implementierungstechnischen, als auch einen experimentellen Anteil. Im methodischen Anteil ist in einem ersten Schritt das im Beispielszenario eingesetzte Regelwerk zu untersuchen, zu systematisieren/formalisieren und in einem weiteren Schritt mit alternativen Ansätze aus dem Bereich der statistischen Datenbanken vor dem Hintergrund von Big Data Architekturen bewertend zu vergleichen. Ziel ist hier ein tiefes Verständnis der Qualitätskontrolle einschließlich einer systematischen Aufarbeitung durch Formalisierung.  Im Anschluss daran sind unterschiedliche Implementierungsvarianten zu betrachten und – je nach Ergebnis – eine Realisierung der Qualitätskontrolle für eine skalierbare Lösung prototypisch zu erledigen. Die Entwicklung des Prototyps geht dabei Hand-in-Hand mit dem dritten Teil der Aufgabe, der Evaluierung der Qualitätskontrolle am Beispiel echter Marktforschungsdaten. Ziel ist hier das Regelwerk auf umfangreiche Massendaten anzuwenden und sowohl (a) auf der systemtechnischen Seite Aussagen über Skalierungseigenschaften zu treffen als auch (b) unterschiedliche Parametrierungen auszutesten und entsprechend ihrer inhaltlichen Effekte zu bewerten. Der letzte Aspekt bezieht sich insbesondere auf heterogene Erfassungskanäle mit einem hohen Grad an Erhebungsartefakten oder nur kleinen Stichproben vorhanden ist. Die Ergebnisse sind inhaltlich mit den Fachabteilungen des Kooperationspartners zu diskutieren.

Aufgabenstellung

Ziel der Arbeit ist es, Datenqualitätsprozesse am Beispiel von Marktforschungsdaten methodisch zu beschreiben und prototypisch zu implementieren. Die Teilaufgaben der Arbeit sind dabei:

  • Einarbeitung in die Problematik der Qualitätssicherung, unterschiedliche Aufgabe und divergierende Ziele, Regelwerk und Auswirkung unterschiedlicher Parametrierungen.
  • Einarbeitung in parallele Datenanalyseplattformen wie beispielsweise Hadoop und prototypische Realisierung eines Regelwerkes
  • Experimentelle Evaluierung der Implementierung mit ausgewählten Datenbeständen und Diskussion der Ergebnisse mit den Fachabteilungen.