Time: upon consultation
Quantity: 0V/0Ü/8P SWS
Language: German (English on request)
Modules: INF-PM-FPA, INF-04-KP, MINF-04-KP-FG3

Hintergrund

Im Rahmen des Forschungsprojekts DeExcelarator wurde eine komplexe Verarbeitungspipeline entwickelt, mit Hilfe derer relationale Informationen aus beliebig strukturierten Excel-Tabellenkalkulation extrahiert werden können. Hier sind verschiedene Arbeitsschritte notwendig, beginnend bei der Klassifikation einzelner Zelle (in Data, Metadata, Header, usw.) bis hin zur Identifikation von Tabellen mittels evolutionäre Algorithmen.    

Aufgabenstellung

Im Rahmen des Praktikums sollen die bisher im Forschungsprojekt DeExcelarator entwickelten Ansätze zur Extraktion relationaler Informationen sichtbar und erlebbar gemacht werden. Dazu ist unter Verwendung von C# ein Add-On für Excel entwickeln, dass die einzelnen Teilschritte der Extraktion visualisiert und es erlaubt die Parametrierung der einzelnen Algorithmen zu ändern und gleichzeitig die Auswirkung der Änderung zu beobachten. Die Funktionen im Backend sind in Python programmiert und werden für dieses Forschungspraktikum bereit gestellt.

Kenntnisse zu Methoden und Werkzeugen

Die Studierenden sollten grundlegende Programmierkenntnisse besitzen. C# und Python sind von Vorteil aber kein Muss.

Organisation

Die Anmeldung zum Forschungspraktikum erfolgt per E-Mail an Maik Thiele.

Die Kick-off-Präsentation des Praktikums findet zu Beginn des Sommersemesters statt. Der genaue Zeitpunkt wird gesondert bekanntgegeben.

Das Praktikum kann als Gruppen- oder Einzelarbeit absolviert werden, was beim Kick-off festgelegt wird. Bei einer Gruppenarbeit erhalten entweder alle Gruppenmitglieder den Forschungspraktikumsschein oder niemand, es sei denn, ein Gruppenmitglied scheidet vorzeitig aus dem Praktikum aus.

Publikationen

  • Table Recognition in Spreadsheets via a Graph Representation.

    Koci, E.; Thiele, M.; Romero, O.; Lehner, W.

    In 13th IAPR International Workshop on Document Analysis Systems (DAS).IEEE Computer Society,139-144,2018.Links: https://www.computer.org/csdl/proceedings/das/2018/3346/00/3346a139-abs.html.

    @article{,
       author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
       title = {Table Recognition in Spreadsheets via a Graph Representation},
       booktitle = {13th IAPR International Workshop on Document Analysis Systems (DAS)},
       year = {2018},
       month = {4},
       isbn = {978-1-5386-3346-5},
       pages = {139--144},
       url = {http://doi.ieeecomputersociety.org/10.1109/DAS.2018.48},
       publisher = {IEEE Computer Society},
       keywords = {Spreadsheet, Table Recognition, Graph Representation, Document Analysis},
       crossref = {DBLP:conf/das/2018}
    }

  • Cell Classification for Layout Recognition in Spreadsheets.

    Koci, E.; Thiele, M.; Romero, O.; Lehner, W.

    In Knowledge Discovery, Knowledge Engineering and Knowledge Management, IC3K 2016, Revised Selected Papers.Springer,2018.Links: https://link.springer.com/chapter/10.1007/978-3-319-99701-8_4.

    @inbook{,
       author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
       title = {Cell Classification for Layout Recognition in Spreadsheets},
       booktitle = {Knowledge Discovery, Knowledge Engineering and Knowledge Management, IC3K 2016, Revised Selected Papers},
       series = {Communications in Computer and Information Science},
       year = {2018},
       publisher = {Springer},
       keywords = {Speadsheet, Tabular, Table, Document, Layout, Recognition, Analysis, Classi cation}
    }

  • Table Identification and Reconstruction in Spreadsheets.

    Koci, E.; Thiele, M.; Romero, O.; Lehner, W.

    In 29th International Conference on Advanced Information Systems Engineering.CAiSE'17, Essen, Germany.Springer,527-541,2017.Links: https://link.springer.com/chapter/10.1007%2F978-3-319-59536-8_33.

    @article{,
       author = {Elvis Koci and Maik Thiele and Oscar Romero and Wolfgang Lehner},
       title = {Table Identification and Reconstruction in Spreadsheets},
       booktitle = {29th International Conference on Advanced Information Systems Engineering},
       year = {2017},
       month = {6},
       isbn = {978-3-319-59536-8},
       location = {Essen, Germany},
       pages = {527--541},
       numpages = {15},
       url = {https://doi.org/10.1007/978-3-319-59536-8_33},
       publisher = {Springer}
    }

  • A Machine Learning Approach for Layout Inference in Spreadsheets.

    Koci, E.; Thiele, M.; Lehner, W.

    In 8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management.KDIR '16, Porto, Portugal.SCITEPRESS ,77-88,2016.Links: http://www.scitepress.org/DigitalLibrary/Link.aspx?doi=10.5220/0006052200770088.

    @conference{,
       author = {Elvis Koci and Maik Thiele and Wolfgang Lehner},
       title = {A Machine Learning Approach for Layout Inference in Spreadsheets},
       booktitle = {8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management},
       volume = {1},
       year = {2016},
       month = {11},
       isbn = {978-989-758-203-5},
       location = {Porto, Portugal},
       pages = {77--88},
       numpages = {12},
       url = {http://dx.doi.org/10.5220/0006052200770088},
       publisher = {SCITEPRESS }
    }

  • DeExcelerator: a framework for extracting relational data from partially structured documents.

    Eberius, J.; Werner, C.; Thiele, M.; Braunschweig, K.; Dannecker, L.; Lehner, W.

    In 22nd ACM International Conference on Information and Knowledge Management, CIKM'13, San Francisco, CA, USA, October 27 - November 1, 2013.He, Qi; Iyengar, Arun; Nejdl, Wolfgang; Pei, Jian & Rastogi, Rajeev,2477-2480,2013.Links: https://dl.acm.org/citation.cfm?id=2508210.

    @article{,
       author = {Julian Eberius and Christoper Werner and Maik Thiele and Katrin Braunschweig and Lars Dannecker and Wolfgang Lehner},
       title = {DeExcelerator: a framework for extracting relational data from partially structured documents},
       booktitle = {22nd ACM International Conference on Information and Knowledge Management, CIKM'13, San Francisco, CA, USA, October 27 - November 1, 2013},
       year = {2013},
       isbn = {978-1-4503-2263-8},
       pages = {2477--2480},
       numpages = {4},
       url = {http://doi.acm.org/10.1145/2505515.2508210},
       publisher = {He, Qi; Iyengar, Arun; Nejdl, Wolfgang; Pei, Jian \& Rastogi, Rajeev}
    }