Scholar

Yidi Jiang

Google Scholar ID: le6gC58AAAAJ

Ph.D., National University of Singapore

MultimodalMachine LearningSpeech Processing

Google Scholar↗

Citations & Impact

All-time

Citations

383

H-index

8

i10-index

6

Publications

20

Co-authors

19

list available

Contact

No contact links provided.

Publications

6 items

Interpolating Speaker Identities in Embedding Space for Data Expansion

2025

Cited

0

MFA-KWS: Effective Keyword Spotting with Multi-head Frame-asynchronous Decoding

2025

Cited

0

InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation

2025

Cited

0

UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook

2025

Cited

0

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

arXiv.org · 2024

Cited

15

Audio-Visual Target Speaker Extraction with Reverse Selective Auditory Attention

arXiv.org · 2024

Cited

1

Resume (English only)

Co-authors

19 total

The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen), China; NUS, Singapore

Qian Chen (陈谦)

Alibaba Tongyi Speech Lab

Zhejiang university

Zhengyang Chen (陈正阳)

ByteDance; Shanghai Jiao Tong University

Professor, Shanghai Jiao Tong University

NUS >> Centre for Frontier AI Research (CFAR) A*STAR