Zusammenfassung

Text Mining, Data Mining, Natural language processing und Information Retrieval sind Themen, die zunehmend an Bedeutung gewinnen. Text Mining operiert im Gegensatz zu Data Mining nur teilweise auf strukturierten oder unstruktuierten Daten, wie sie in Dokumenten und in Artikeln vorkommen. Es sind auf Algorithmen basierende Verfahren zur Verarbeitung, Wiederauffindung und Kategorisierung von teilstrukturierten Objekten. Die Arbeitsgemeinschaft TÜV | DEKRA arge tp 21 stellt unter anderem für die Betreiber der Technischen Prüfstellen jegliche Informationen zum Kraftfahrzeug bereit. Diese Informationen sind überwiegend in unstrukturierten Dokumenten abgelegt.

Die automatische Aufbereitung und Verarbeitung dieser Informationen wird durch die ständige Erweiterung des Datenumfangs immer wichtiger. Ziel ist die Weiterentwicklung des Informationsportals für die Technischen Prüfstellen. Ein Teilbereich ist die Integration einer schlüsselwortbasierten Volltextsuche, die dem Benutzer einen zentralen Zugang zu den automatisch aufbereiteten Informationen bietet. Die Schwierigkeit besteht, denzweigeteilten Inhalt der unstrukturierten Dokumente zu erkennen, die relevanten Indexinformationen einer vordefinierten Gruppe zuzuordnen und die Dokumente in Klassen einzuteilen.

In dieser Arbeit werden Verfahren zur Dokumentenklassifikation und Zeichenkettenklassifikation vorgestellt, welche die Besonderheiten des vorliegenden Dokumentenkorpus beachten. In der Literatur wurden viele Klassifikationssystemen beschrieben, die verschiedenste etablierte Objektarten wie z.B Text, Bilder, Audio und Video Daten anhand von Merkmalen klassifizieren können.

Da die Inhalte der Dokumente einen technischen Hintergrund zu verschiedensten Themenzum Kraftfahrzeug beinhalten und die enthaltenen Wörter eine Kombination aus Buchstaben, Zahlen und Sonderzeichen sein können, muss das System sowohl auf die Besonderheiten der Wörter bei der Informationsextraktion als auch bei der Informationsklassifikation eingehen.