Aufgrund der immer größeren Datenmengen, die durch immer größere Sensornetzwerke, Protokollierungsmaßnahmen oder andere Quellen aufgezeichnet werden, steigt die Menge von zu bearbeitenden Daten immer weiter an. Um diese Informationen zu verarbeiten, wird der Prozess des Data-Mining angewendet, wovon ein wichtiger Teil aus der Clusteranalyse besteht. Dadurch sollen diejenigen Elemente einer Datenmenge gefunden werden, deren Merkmale einander ähnlich oder sogar identisch sind. Um bei der Analyse selbst so variabel wie möglich zu sein, werden Ausführungsumgebungen benötigt, um die Clustering-Algorithmen verwenden zu können. Für jede Implementierung gelten dabei in der Regel Abhängigkeiten, welche sie an eine Umgebung binden. Diese Arbeit untersucht eine Möglichkeit, um basierend auf dem MapReduce Modell eine plattformunabhängige Spezifikation von Clustering-Algorithmen zu ermöglichen und die Parallelität der zu Grunde liegenden Hardware auszunutzen. Dabei wird ein mögliches Sprachkonzept aufgezeigt und darauf eingegangen, wie dessen Umsetzung in plattformunabhängigen Programmcode funktionieren kann. Die Funktionalität des Ansatzes wird anhand einer MapReduce und OpenCL Implementierung bestätigt.

Mehr