Time: | upon consultation |
Quantity: | 0V/0Ü/8P SWS |
Language: | German (English on request) |
Modules: | INF-PM-FPA, INF-04-KP, MINF-04-KP-FG3 |
Im Rahmen des Forschungsprojekts DeExcelarator wurde eine komplexe Verarbeitungspipeline entwickelt, mit Hilfe derer relationale Informationen aus beliebig strukturierten Excel-Tabellenkalkulation extrahiert werden können. Hier sind verschiedene Arbeitsschritte notwendig, beginnend bei der Klassifikation einzelner Zelle (in Data, Metadata, Header, usw.) bis hin zur Identifikation von Tabellen mittels evolutionäre Algorithmen.
Im Rahmen des Praktikums sollen die bisher im Forschungsprojekt DeExcelarator entwickelten Ansätze zur Extraktion relationaler Informationen sichtbar und erlebbar gemacht werden. Dazu ist unter Verwendung von C# ein Add-On für Excel entwickeln, dass die einzelnen Teilschritte der Extraktion visualisiert und es erlaubt die Parametrierung der einzelnen Algorithmen zu ändern und gleichzeitig die Auswirkung der Änderung zu beobachten. Die Funktionen im Backend sind in Python programmiert und werden für dieses Forschungspraktikum bereit gestellt.
Die Studierenden sollten grundlegende Programmierkenntnisse besitzen. C# und Python sind von Vorteil aber kein Muss.
Die Anmeldung zum Forschungspraktikum erfolgt per E-Mail an Maik Thiele.
Die Kick-off-Präsentation des Praktikums findet zu Beginn des Sommersemesters statt. Der genaue Zeitpunkt wird gesondert bekanntgegeben.
Das Praktikum kann als Gruppen- oder Einzelarbeit absolviert werden, was beim Kick-off festgelegt wird. Bei einer Gruppenarbeit erhalten entweder alle Gruppenmitglieder den Forschungspraktikumsschein oder niemand, es sei denn, ein Gruppenmitglied scheidet vorzeitig aus dem Praktikum aus.
@article{,
author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
title = {Table Recognition in Spreadsheets via a Graph Representation},
booktitle = {13th IAPR International Workshop on Document Analysis Systems (DAS)},
year = {2018},
month = {4},
isbn = {978-1-5386-3346-5},
pages = {139--144},
url = {http://doi.ieeecomputersociety.org/10.1109/DAS.2018.48},
publisher = {IEEE Computer Society},
keywords = {Spreadsheet, Table Recognition, Graph Representation, Document Analysis},
crossref = {DBLP:conf/das/2018}
}
@inbook{,
author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
title = {Cell Classification for Layout Recognition in Spreadsheets},
booktitle = {Knowledge Discovery, Knowledge Engineering and Knowledge Management, IC3K 2016, Revised Selected Papers},
series = {Communications in Computer and Information Science},
year = {2018},
publisher = {Springer},
keywords = {Speadsheet, Tabular, Table, Document, Layout, Recognition, Analysis, Classication}
}
@article{,
author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
title = {Table Identification and Reconstruction in Spreadsheets},
booktitle = {29th International Conference on Advanced Information Systems Engineering},
year = {2017},
month = {6},
isbn = {978-3-319-59536-8},
location = {Essen, Germany},
pages = {527--541},
numpages = {15},
url = {https://doi.org/10.1007/978-3-319-59536-8_33},
publisher = {Springer}
}
@conference{,
author = {Elvis Koci and Maik Thiele and Wolfgang Lehner},
title = {A Machine Learning Approach for Layout Inference in Spreadsheets},
booktitle = {8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management},
volume = {1},
year = {2016},
month = {11},
isbn = {978-989-758-203-5},
location = {Porto, Portugal},
pages = {77--88},
numpages = {12},
url = {http://dx.doi.org/10.5220/0006052200770088},
publisher = {SCITEPRESS }
}
@article{,
author = {Julian Eberius and Christoper Werner and Maik Thiele and Katrin Braunschweig and Lars Dannecker and Wolfgang Lehner},
title = {DeExcelerator: a framework for extracting relational data from partially structured documents},
booktitle = {22nd ACM International Conference on Information and Knowledge Management, CIKM'13, San Francisco, CA, USA, October 27 - November 1, 2013},
year = {2013},
isbn = {978-1-4503-2263-8},
pages = {2477--2480},
numpages = {4},
url = {http://doi.acm.org/10.1145/2505515.2508210},
publisher = {He, Qi; Iyengar, Arun; Nejdl, Wolfgang; Pei, Jian \& Rastogi, Rajeev}
}