Lernen von Ähnlichkeitsfunktionen für Tabellen


Tabellen sind ein effizientes und populäres Mittel, um strukturierte Daten in unstrukturierte Texte einzubetten, wie zum Beispiel in wissenschaftliche Veröffentlichungen, Geschäftsberichte, oder auch Webseiten. Typische Suchmaschinen nutzen aber die speziellen Eigenschaften von Tabellen (Struktur bestehend aus Spalten und Zeilen, Spaltenüberschriften, semantische Einheitlichkeit in Werten in Spalten oder in Zeilen etc.) nicht aus, sondern behandeln Tabellen meistens einfach als Menge von Wörtern. Suchmethoden, deren Ergebnis direkt Tabellen aus einem gegebenen Korpus wären, würden Zugang zu einer Fülle an strukturierten Daten liefern, die auf anderen Wegen kaum zu bekommen sind. Eine solche Suchmethode ist die Tabellenähnlichkeitssuche: Gegeben eine Anfragetabelle, sollen alle Tabellen in einem Korpus gefunden werden, die zu dieser ähnlich sind. In diesem Projekt wollen wir Verfahren erforschen, die Ähnlichkeitsmaße für Tabellen in einem überwachten Verfahren lernen. Diese Ähnlichkeitsmaße sind fundamentale Komponenten von Verfahren zur Tabellenähnlichkeitssuche, finden aber auch Anwendung in anderen interessanten Problemstellungen, wie der Informationsextraktion aus Tabellen oder dem Clustern von Tabellen. Unsere Verfahren werden sich auf moderne Methoden des Deep Learning stützen, die wir auf verschiedenen Ebenen einsetzen wollen; zum einen, um die Orientierung einer Tabelle automatisch zu erkennen, und zum anderen um Repräsentationen von Tabellen zu erlernen, die einen einheitlichen Rahmen zum Vergleich ihrer Eigenschaften und ihres Inhalts schaffen. Alle Verfahren werden anhand eines Gold Standards von Tabellenpaaren mit manuell annotierter Ähnlichkeit aus einem frei verfügbaren umfassenden Volltextkorpus wissenschaftlicher Texte entwickelt und evaluiert. Goldstandard sowie alle entstehende Software werden der Wissenschaft in einem Open Source Modell zur Verfügung gestellt werden.


Projektleitung
Leser, Ulf Prof. Dr.-Ing. (Details) (Wissensmanagement in der Bioinformatik)

Beteiligte Organisationseinheiten der HU

Laufzeit
Projektstart: 10/2018
Projektende: 02/2021

Forschungsbereiche
Betriebs-, Kommunikations-, Datenbank- und verteilte Systeme

Forschungsfelder
Deep Learning, Information Retrieval, Web Science

Zuletzt aktualisiert 2021-17-02 um 13:37