IEEE ICASSP 2022 || Singapore || 7-13 May 2022 Virtual; 22-27 May 2022 In-Person

SPE-3.3

CONTEXT-AWARE MASK PREDICTION NETWORK FOR END-TO-END TEXT-BASED SPEECH EDITING

Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Institute of Automation, Chinese Academy of Sciences, China; Liqun Deng, Huawei Noah's Ark Lab, Shenzhen, China, China

Session:

Speech Synthesis: General Topics I

Location:

Gather Area D

Presentation Time:

Sun, 8 May, 20:00 - 20:45 China Time (UTC +8)
Sun, 8 May, 12:00 - 12:45 UTC

Session Chair:

Lei Xie, Northwestern Polytechnical University

Resources

View Manuscript

Session SPE-3

SPE-3.1: IMPROVING CROSS-LINGUAL SPEECH SYNTHESIS WITH TRIPLET TRAINING SCHEME

Jianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren, Lin Li, Heng Lu, Ximalaya Inc., China

SPE-3.2: IMPROVING PHONETIC REALIZATIONS IN TTS BY USING PHONEME-ALIGNED GRAPHEMES

Manish Sharma, Yizhi Hong, Emily Kaplan, Siamak Tazari, Rob Clark, Google, United Kingdom of Great Britain and Northern Ireland

SPE-3.3: CONTEXT-AWARE MASK PREDICTION NETWORK FOR END-TO-END TEXT-BASED SPEECH EDITING

Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Institute of Automation, Chinese Academy of Sciences, China; Liqun Deng, Huawei Noah's Ark Lab, Shenzhen, China, China

SPE-3.4: A study on the efficacy of model pre-training in developing neural text-to-speech system

Guangyan Zhang, Daxin Tan, Tan Lee, Department of Electronic Engineering, The Chinese University of Hong Kong, Hong Kong; Yichong Leng, University of Science and Technology of China, China; Ying Qin, Institute of Information Science, Beijing Jiaotong University, China; Kaitao Song, Xu Tan, Microsoft Research Asia, China; Sheng Zhao, Microsoft Azure Speech, China

SPE-3.5: PERCEPTUAL-SIMILARITY-AWARE DEEP SPEAKER REPRESENTATION LEARNING FOR MULTI-SPEAKER GENERATIVE MODELING

Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, The University of Tokyo, Japan

SPE-3.6: ONE TTS ALIGNMENT TO RULE THEM ALL

Rohan Badlani, Adrian Lancucki, Kevin J. Shih, Rafael Valle, Wei Ping, Bryan Catanzaro, NVIDIA, United States of America

IEEE ICASSP 2022

2022 IEEE International Conference on Acoustics, Speech and Signal Processing

7-13 May 2022

Virtual (all paper presentations)

22-27 May 2022

Main Venue: Marina Bay Sands Expo & Convention Center, Singapore

27-28 October 2022

Satellite Venue: Crowne Plaza Shenzhen Longgang City Centre, Shenzhen, China

CONTEXT-AWARE MASK PREDICTION NETWORK FOR END-TO-END TEXT-BASED SPEECH EDITING

IEEE ICASSP 2022

2022 IEEE International Conference on Acoustics, Speech and Signal Processing

7-13 May 2022 Virtual (all paper presentations) 22-27 May 2022 Main Venue: Marina Bay Sands Expo & Convention Center, Singapore 27-28 October 2022 Satellite Venue: Crowne Plaza Shenzhen Longgang City Centre, Shenzhen, China

CONTEXT-AWARE MASK PREDICTION NETWORK FOR END-TO-END TEXT-BASED SPEECH EDITING

7-13 May 2022

Virtual (all paper presentations)

22-27 May 2022

Main Venue: Marina Bay Sands Expo & Convention Center, Singapore

27-28 October 2022

Satellite Venue: Crowne Plaza Shenzhen Longgang City Centre, Shenzhen, China