IEEE ICASSP 2022

2022 IEEE International Conference on Acoustics, Speech and Signal Processing

7-13 May 2022

Virtual (all paper presentations)

22-27 May 2022

Main Venue: Marina Bay Sands Expo & Convention Center, Singapore

27-28 October 2022

Satellite Venue: Crowne Plaza Shenzhen Longgang City Centre, Shenzhen, China

ICASSP 2022

SPE-3.2

IMPROVING PHONETIC REALIZATIONS IN TTS BY USING PHONEME-ALIGNED GRAPHEMES

Manish Sharma, Yizhi Hong, Emily Kaplan, Siamak Tazari, Rob Clark, Google, United Kingdom of Great Britain and Northern Ireland

Session:

Speech Synthesis: General Topics I

Location:

Gather Area D

Presentation Time:

Sun, 8 May, 20:00 - 20:45 China Time (UTC +8)
Sun, 8 May, 12:00 - 12:45 UTC

Session Chair:

Lei Xie, Northwestern Polytechnical University

Resources

View Manuscript

Session SPE-3

SPE-3.1: IMPROVING CROSS-LINGUAL SPEECH SYNTHESIS WITH TRIPLET TRAINING SCHEME

Jianhao Ye, Hongbin Zhou, Zhiba Su, Wendi He, Kaimeng Ren, Lin Li, Heng Lu, Ximalaya Inc., China

SPE-3.2: IMPROVING PHONETIC REALIZATIONS IN TTS BY USING PHONEME-ALIGNED GRAPHEMES

Manish Sharma, Yizhi Hong, Emily Kaplan, Siamak Tazari, Rob Clark, Google, United Kingdom of Great Britain and Northern Ireland

SPE-3.3: CONTEXT-AWARE MASK PREDICTION NETWORK FOR END-TO-END TEXT-BASED SPEECH EDITING

Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen, Institute of Automation, Chinese Academy of Sciences, China; Liqun Deng, Huawei Noah's Ark Lab, Shenzhen, China, China

SPE-3.4: A study on the efficacy of model pre-training in developing neural text-to-speech system

Guangyan Zhang, Daxin Tan, Tan Lee, Department of Electronic Engineering, The Chinese University of Hong Kong, Hong Kong; Yichong Leng, University of Science and Technology of China, China; Ying Qin, Institute of Information Science, Beijing Jiaotong University, China; Kaitao Song, Xu Tan, Microsoft Research Asia, China; Sheng Zhao, Microsoft Azure Speech, China

SPE-3.5: PERCEPTUAL-SIMILARITY-AWARE DEEP SPEAKER REPRESENTATION LEARNING FOR MULTI-SPEAKER GENERATIVE MODELING

Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, The University of Tokyo, Japan

SPE-3.6: ONE TTS ALIGNMENT TO RULE THEM ALL

Rohan Badlani, Adrian Lancucki, Kevin J. Shih, Rafael Valle, Wei Ping, Bryan Catanzaro, NVIDIA, United States of America

Contact | Accessibility | Nondiscrimination Policy | IEEE Ethics Reporting | IEEE Privacy Policy | Terms | Signal Processing Society

©2026 IEEE – All rights reserved.

Last updated Last updated 21 May 2022.

Use of this website signifies your agreement to the IEEE Terms and Conditions.

Support: webmaster@2022.ieeeicassp.org Host: https://cmsworldwide.com/