Zusammenfassung

Eine wertvolle Informationsquelle imWorldWideWeb sind Tabellen aufWebseiten. Diese Tabellen und deren Inhalt zu extrahieren birgt jedoch einige Herausforderungen. Es ist einerseits notwendig, Tabellen zu identifizieren, die sinnvolle Daten enthalten. Andererseits muss die Struktur einer solchen Tabelle korrekt erkannt werden, damit diese weiterverarbeitet werden kann, da die Anordnung von Daten innerhalb der Tabelle essentiell für deren Bedeutung ist. Die vorliegende Ausarbeitung stützt sich auf den Ansatz des maschinellen Lernens und evaluiert verschiedene Klassifikationsalgorithmen um diese Aufgaben zu meistern und eine Klassifizierung von beliebigenWebseitentabellen zu ermöglichen.

Es wurden verschiedene Lernalgorithmen, darunter Entscheidungsbäume sowie Support Vector Machines, gegeneinander verglichen. Dabei wurden Genauigkeiten erreicht, die sowohl simples Raten als auch eine feste, regelbasierte Baseline-Klassifizierung überboten. Weiterhin konnte gezeigt werden, dass eine Aufteilung der Klassifikation in zwei Teilprobleme eine genauere Klassifikation ermöglicht. Zusätzlich wurde ein Selektionsverfahren für die Features gewählt, um den Rechenaufwand bei der Klassifizierung weiter zu reduzieren. Dabei konnte die Menge der Features zwar drastisch reduziert, der resultierende Aufwand dagegen nur geringfügig verringert werden.

Mehr