Scholar

Ziyang Ma

Google Scholar ID: 4RZnXGMAAAAJ

Shanghai Jiao Tong University

Speech and Language ProcessingTextless NLPSelf-supervised LearningMultimedia

Homepage↗Google Scholar↗

Citations & Impact

All-time

Citations

1,894

H-index

24

i10-index

36

Publications

20

Co-authors

30

list available

Contact

No contact links provided.

Publications

11 items

Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation

2026

Cited

0

MMAE: A Massive Multitask Audio Editing Benchmark

2026

Cited

0

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

2026

Cited

0

WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling

2026

Cited

0

WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling

2026

Cited

0

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

2026

Cited

0

FineLAP: Taming Heterogeneous Supervision for Fine-grained Language-Audio Pretraining

2026

Cited

0

Resonate: Reinforcing Text-to-Audio Generation via Online Feedback from Large Audio Language Models

2026

Cited

0

Resume (English only)

Co-authors

30 total

Shanghai Jiao Tong University <- Microsoft <- Cambridge University

Unknown affiliation

Kai Yu（俞凯）

Shanghai Jiao Tong University

The University of Texas at Austin

Shanghai Jiao Tong University, Tencent, Microsoft, Xiaomi

Tongyi Lab, Alibaba Group

Shanghai Jiao Tong University