3D Gesichtsanalyse für Identifikation und Mensch-Maschine Kommunikation


Das menschliche Gesicht ist eine wichtige Informationsquelle, da daraus wertvolle Informationen und Hinweise über die Identität einer Person, ihre Absichten sowie Emotionen und Reaktionen gewonnen werden können. Diese sind wiederum Ausgangsbasis für eine Vielzahl von Anwendungen, die darauf abzielen, das Leben angenehmer und sicherer zu machen sowie die Interaktion zwischen Menschen und Maschinen zu verbessern. So kann eine genaue Gesichtserfassung zum Beispiel in der medizinischen Diagnostik und Therapie, in der Kfz-Innenraumüberwachung oder für neue/intuitive Mensch-Maschinen-Schnittstellen genutzt werden. All diese Anwendungen erfordern eine höchstgenaue Analyse und Repräsentation der 3D-Form und Bewegung des menschlichen Gesichts. In den letzten Jahren wurden zwar deutliche Fortschritte in der 3D Gesichtserfassung erzielt, allerdings gelten bestimmte Gesichtsbereiche immer noch als schwierig zu rekonstruieren und analysieren, bzw. können bei aktuellen Verfahren Probleme verursachen. Als Beispiele seien die Augen, bzw. der Mundbereich genannt. Diese unterscheiden sich teils sehr stark von den übrigen Gesichtsbereichen durch unterschiedliches Deformationsverhalten, Material oder durch Deformation auftretende Auf- bzw. Verdeckungen. Um entstehende Artefakte zu minimieren, werden diese Bereiche oft ignoriert, indem sie zum Beispiel durch einfache Löcher im Modell ersetzt werden. Dabei liefern gerade diese Gesichtsbereiche besonders wertvolle Informationen, bzw. ziehen bei Unstimmigkeiten in der Rekonstruktion und in der Synthese besonders große Aufmerksamkeit von menschlichen Beobachtern auf sich. Aufbauend auf den Ergebnissen des laufenden Vorhabens im Rahmen des 3D-Sensation Graduiertenforschungskollegs soll in diesem Verlängerungsantrag daher das hybride Basisverfahren zur dynamischen 3D Gesichtserfassung auf problematische Bereiche wie zum Beispiel die Mund- und Augenregion erweitert werden. Dazu sollen diese durch spezialisierte Modelle regularisiert und beschrieben werden, um eine bessere dreidimensionale Erfassung dieser Stellen zu ermöglichen. Dies umfasst beispielsweise eine Erweiterung der Deformationsmodelle für komplexe Bewegungen (z.B. Lippen), Behandlung von Diskontinuitäten und verdeckten Bereichen (z.B. Mundhöhle) oder komplexe Reflexionseigenschaften (z.B. Augen). Da eine reine geometrische Modellierung für fotorealistische Darstellungen unverhältnismäßig aufwendig wird, sollen Konzepte des bild- und videobasierten Renderings mit integriert werden. Damit wird der hybride Ansatz mit modellbasierter und modellfreier Geometrieschätzung um eine weitere Ebene mit dynamischer Textur erweitert, um einerseits eine wirklichkeitsgetreue und detaillierte als auch eine semantisch und zeitlich konsistente 3D-Rekonstruktion zu ermöglichen. Zusätzlich soll die Anwendbarkeit von zeitlichen Deformationsmodellen, die die Korrelationen von Bewegungsabläufen (z.B. Lippenbewegung während des Sprechens) modellieren, zur besseren Rekonstruktion von komplexen Bewegungsabläufen untersucht werden. Die zu entwickelnden Verfahren sollen, wie bereits im laufenden Vorhaben, auf Stereovideoströmen arbeiten und einen personenunspezifischen Ansatz verfolgen, um eine einfache sowie vielfältige Anwendung zu ermöglichen.


Projektleitung
Eisert, Peter Prof. Dr.-Ing. (Details) (Visual Computing (S))

Beteiligte Organisationseinheiten der HU
Visual Computing (S) (OKZ: 331355)

Mittelgeber
BMBF

Laufzeit
Projektstart: 10/2017
Projektende: 09/2019

Forschungsbereiche
Interaktive und intelligente Systeme, Bild- und Sprachverarbeitung, Computergraphik und Visualisierung

Forschungsfelder
Informatik

Zuletzt aktualisiert 2022-08-09 um 15:05