Kurzfassung

Die Professur für Datenbanken hat ein Entity-Augmentation-System namens REA entwickelt, welches es ermöglicht, einen gegebenen Datensatz (relationale Tabelle, Excel, CSV etc.) um ein neues Attribut zu erweitern und die Werte für dieses Attribut automatisch ermitteln zu lassen. In Anlehnung an ist in dieser Bachelorarbeit ein Search-Join umzusetzen, welcher unbeschränkte Anfragen zulässt, d.h. eine Menge von Entitäten wird um alle möglichen, im Dresden Web Table Corpus vorhandenen, Attribute erweitert. Dadurch kann sehr schnell ein Überblick gewonnen werden, welche zusätzlichen Informationen zu einer gegebenen Tabelle oder einer gegebenen Menge von Entitäten existieren. Zur Umsetzung des Search-Join ist die mit REA vorhandene Infrastruktur zu nutzen. Darauf aufbauend, sind für eine Menge von Entitäten alle relevanten Tabellen zu ermitteln. Diese müsse unter Verwendung geeigneter Ähnlichkeitsmaße (Weighted Tokenized Levenshtein, Jaccard, Q-Gram Distanz, Jaro–Winkler, etc.) und Cluster-Algorithmen segmentiert werden. Die Webtabellen innerhalb eines Clusters sind dann mittels des Consistent-Set-Cover-Algorithmus zu einer Menge von k „Covern“ zu vereinen. Die zu einer Entitätsmenge relevanten Attribute sollen bis zu einem bestimmten Vollständigkeitsschwellwert zurückzugeben. Die so gewonnenen Ergebnisse sind abschließend zu evaluieren.