IEEE ICASSP 2022

2022 IEEE International Conference on Acoustics, Speech and Signal Processing

7-13 May 2022

Virtual (all paper presentations)

22-27 May 2022

Main Venue: Marina Bay Sands Expo & Convention Center, Singapore

27-28 October 2022

Satellite Venue: Crowne Plaza Shenzhen Longgang City Centre, Shenzhen, China

ICASSP 2022

SPE-45.5

THE IMPACT OF REMOVING HEAD MOVEMENTS ON AUDIO-VISUAL SPEECH ENHANCEMENT

Zhiqi Kang, Radu Horaud, Xavier Alameda-Pineda, Inria Grenoble Rhône-Alpes & Univ. Grenoble Alpes, France, France; Mostafa Sadeghi, Inria Nancy Grand-Est, France, France; Jacob Donley, Anurag Kumar, Facebook Reality Labs Research, Redmond WA, USA, United States of America

Session:

Speech Enhancement: Speech Extraction and Audio-visual Enhancement

Location:

Gather Area B

Presentation Time:

Tue, 10 May, 23:00 - 23:45 China Time (UTC +8)
Tue, 10 May, 15:00 - 15:45 UTC

Session Chair:

Jun Du, University of Science and Technology of China

Resources

View Manuscript

Session SPE-45

SPE-45.1: L-SpEx: Localized Target Speaker Extraction

Meng Ge, Longbiao Wang, Jianwu Dang, Tianjin University, China; Chenglin Xu, Kuaishou Technology, China; Eng Siong Chng, Nanyang Technological University, Singapore; Haizhou Li, National University of Singapore, Singapore

SPE-45.3: DPCCN: DENSELY-CONNECTED PYRAMID COMPLEX CONVOLUTIONAL NETWORK FOR ROBUST SPEECH SEPARATION AND EXTRACTION

Jiangyu Han, Yanhua Long, Shanghai Normal University, China; Lukas Burget, Jan Cernocky, Brno University of Technology, Czechia

SPE-45.4: MIXED PRECISION DNN QUANTIZATION FOR OVERLAPPED SPEECH SEPARATION AND RECOGNITION

Junhao Xu, Xunying Liu, Helen Mei-Ling Meng, The Chinese University of Hong Kong, China; Jianwei Yu, Tencent AI Lab, China

SPE-45.5: THE IMPACT OF REMOVING HEAD MOVEMENTS ON AUDIO-VISUAL SPEECH ENHANCEMENT

Zhiqi Kang, Radu Horaud, Xavier Alameda-Pineda, Inria Grenoble Rhône-Alpes & Univ. Grenoble Alpes, France, France; Mostafa Sadeghi, Inria Nancy Grand-Est, France, France; Jacob Donley, Anurag Kumar, Facebook Reality Labs Research, Redmond WA, USA, United States of America

SPE-45.6: VSEGAN: VISUAL SPEECH ENHANCEMENT GENERATIVE ADVERSARIAL NETWORK

Xinmeng Xu, Trinity College Dublin, China; Yang Wang, Dongxiang Xu, Yiyuan Peng, Cong Zhang, Jie Jia, Binbin Chen, Vivo Communication Technology Co. Ltd., China

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 21 May 2022.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: webmaster@2022.ieeeicassp.org Host: https://cmsworldwide.com/