🤖 AI Summary
This work addresses the lack of deep learning approaches for German lipreading by introducing the first end-to-end multisyllabic word recognition system tailored to German. Leveraging a newly compiled dataset comprising 1,806 video clips, 38,391 word segments, and recordings from 32 speakers, we propose a GRU-Conv hybrid neural architecture specifically designed for German phonetic and visual characteristics. Crucially, we demonstrate for the first time that precise lip-region cropping—rather than full-face input—yields substantial performance gains (70% vs. 34% accuracy). Experiments evaluate color-space variants (RGB vs. grayscale) and cross-speaker generalization: speaker-dependent accuracy reaches 87%, while speaker-independent accuracy attains 63%, matching state-of-the-art English systems. Our key contributions are threefold: (1) filling the critical gap in deep learning–based German lipreading, (2) establishing lip-region cropping as an essential preprocessing paradigm, and (3) validating the efficacy of hybrid temporal-spatial modeling for visual speech recognition.
📝 Abstract
Zahlreiche Menschen profitieren beim Lippenlesen von den zusätzlichen visuellen Informationen aus den Lippenbewegungen des Sprechenden, was jedoch sehr fehleranfällig ist. Algorithmen zum Lippenlesen mit auf künstlichen neuronalen Netzwerken basierender künstlicher Intelligenz verbessern die Worterkennung signifikant, stehen jedoch nicht für die deutsche Sprache zur Verfügung. Es wurden 1806 Videos mit jeweils nur einer deutsch sprechenden Person selektiert, in Wortsegmente unterteilt und mit einer Spracherkennungssoftware Wortklassen zugeordnet. In 38.391 Videosegmenten mit 32 Sprechenden wurden 18 mehrsilbige, visuell voneinander unterscheidbare Wörter zum Trainieren und Validieren eines neuronalen Netzwerks verwendet. Die Modelle 3D Convolutional Neural Network, Gated Recurrent Units und die Kombination beider Modelle (GRUConv) wurden ebenso verglichen wie unterschiedliche Bildausschnitte und Farbräume der Videos. Die Korrektklassifikationsrate wurde jeweils innerhalb von 5000 Trainingsepochen ermittelt. Der Vergleich der Farbräume ergab keine relevant unterschiedlichen Korrektklassifikationsraten im Bereich von 69 % bis 72 %. Bei Zuschneidung auf die Lippen wurde mit 70 % eine deutlich höhere Korrektklassifikationsrate als bei Zuschnitt auf das gesamte Sprechergesicht (34 %) erreicht. Mit dem GRUConv-Modell betrugen die maximalen Korrektklassifikationsraten 87 % bei bekannten Sprechenden und 63 % in der Validierung mit unbekannten Sprechenden. Das erstmals für die deutsche Sprache entwickelte neuronale Netzwerk zum Lippenlesen zeigt eine sehr große, mit englischsprachigen Algorithmen vergleichbare Genauigkeit. Es funktioniert auch mit unbekannten Sprechenden und kann mit mehr Wortklassen generalisiert werden.