CRC 1404/1: Adapting Genomic Data Analysis Workflows for Different Data Access Patterns (SP A02)


German project description
Die Laufzeit von DAWs auf naturwissenschaftlichen Messdaten wird in der Regel durch die notwendigen Operationen zum Datenzugriff und zum Datenaustausch bestimmt. Deren Laufzeit wiederum ist abhängig von den Daten, die analysiert werden, den Programmen, die die Analysen durchführen, und der Rechnerinfrastruktur, auf der ein DAW ausgeführt wird. Notwendige Anpassungen werden heutzutage manuell auf Ebene der DAW-Spezifikation durchgeführt, da Änderungen in einer dieser Aspekte schnell zu einem eklatanten Effizienzverlust führen können. Das interdisziplinäre Teilprojekt A02 beschäftigt sich mit der Entwicklung von Methoden, mit deren Hilfe ein gegebener DAW (semi-)automatisch an veränderte Eingabedaten oder eine veränderte Infrastruktur adaptiert werden kann um solche Effizienzeinbrüche zu verhindern. Im Mittelpunkt der Methodenentwicklung stehen DAWs zur Analyse großer genomischer Datensätze, die typischerweise sehr sensitiv auf die Performanz von Datenzugriff und Datenaustausch sind. A02 wird intensiv mit Teilprojekt A06 zusammenarbeiten, um die entwickelten Methoden auch auf DAWs zur Analyse von Strukturvarianten zu erproben. Ebenso ist eine enge Kooperation mit B01 geplant, da die dort entwickelten Hardware-Abstraktionen essentiell für eine gute DAW Anpassung sind. A02 wird von Prof. Reinert, einem Experten in Datenstrukturen und Algorithmen zur Analyse genomischer Daten, und Prof. Leser, einem Experten in der Optimierung naturwissenschaftlicher DAWs, geleitet.

English project description
DAW runtime in distributed infrastructures if often dominated by the time required for data access and data exchange (DADE), which in turn depends on the data being analysed, the tasks being executed, and the infrastructure on which a DAW runs. Changes in either of these aspects can quickly lead to deteriorating runtimes when a DAW is not adapted properly. Subproject A02 investigates methods that can adapt a given DAW to new input data or a different infrastructure with the goal to keep runtime low. A02 is an interdisciplinary project; it will develop its research using DAWs for large-scale genome data analysis, which are typically IO heavy and thus particularly depend on proper DADE operations. It will intensively cooperate with subproject A06 by testing its newly developed methods also on DAWs for finding structural genomic variations, and it will use the hardware abstractions developed in B01. It will be carried out by Prof. Reinert, an expert in data structures and algorithms for genomic data, and Prof. Leser, an expert in optimization of UDF-heavy DAWs.

Principal investigators
Leser, Ulf Prof. Dr.-Ing. (Details) (Knowledge Management in Bioinformatics)

Participating external organisations

Financer
DFG Collaborative Research Centre

Duration of project
Start date: 07/2020
End date: 06/2024

Research Areas
Bioinformatics and Theoretical Biology, Massively Parallel and Data-Intensive Systems, Security and Dependability, Operating, Communication and Distributed Systems

Research Areas
Bioinformatik, Theoretische Biologie

Last updated on 2025-16-01 at 10:16