Publications — Ke Chen

Audio Representation Learning

MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
Jingyue Huang, Zachary Novack, Philip Long, Yupeng Hou, Ke Chen, et al.
In Submission
[code] [demo]

SpeechOp: Inference-Time Task Composition for Generative Speech Processing
Justin Lovelace, Rithesh Kumar, Jiaqi Su, Ke Chen, Zeyu Jin
In Submission

FLAM: Frame-Wise Language-Audio Modeling
Yusong Wu, Chris Tsirigotis, Ke Chen, et al.
International Conference on Machine Learning, ICML 2025
[code] [demo]

Large-Scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation
Ke Chen*, Yusong Wu*, Tianyu Zhang*, Yuchen Hui*, Taylor Berg-Kirkpatrick, Shlomo Dubnov
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023
[code] [dataset] [api] [pip library]

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022 (oral presentation)
[code]

Bytecover2: Towards Dimensionality Reduction of Latent Embedding for Efficient Cover Song Identification
Xingjian Du, Ke Chen, Zijie Wang, Bilei Zhu, Zejun Ma
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022

Learning Audio Embeddings with User Listening Data for Content-based Music Recommendation
Ke Chen, Beici Liang, Xiaoshuan Ma, Minwei Gu
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2021

Audio, Music, Speech Source Separation

PromptSep: Generative Audio Separation via Multimodal Prompting
Yutong Wen, Ke Chen, Prem Seetharaman, Jiaqi Su, Rithesh Kumar, Minje Kim, Paris Smaragdis, et al.
In Submission
[demo]

Universal Source Separation with Weakly Labelled Data
Qiuqiang Kong*, Ke Chen*, Haohe Liu, Xingjian Du, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Mark D. Plumbley
IEEE Transactions on Audio, Speech and Language Processing, TASLP 2025
[code] [demo]

Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation
Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Zeyu Jin
Annual Conference of the International Speech Communication Association, Interspeech 2024 javascript:noop();

MDX-GAN: Enhancing Perceptual Quality in Multi-Class Source Separation via Adversarial Training
Ke Chen, Jiaqi Su, Zeyu Jin
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024

PAᗧ-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT
Ke Chen, Gordon Wichern, François G. Germain, Jonathan Le Roux
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023 (SASB Workshop)

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
Association for the Advancement of Artificial Intelligence Conference, AAAI 2022 (oral presentation, ac: 15%)
[code] [api] [intro video] [talk]

Improving Choral Music Separation through Expressive Synthesized Data from Sampled Instruments
Ke Chen, Hao-Wen Dong, Yi Luo, Julian McAuley, Taylor Berg-Kirkpatrick, Miller Puckette, Shlomo Dubnov
International Society for Music Information Retrieval Conference, ISMIR 2022
[code] [demo] [dataset]

Algorithmic Composition and Music Generation

From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training
Minyang Yao, Ke Chen
The Conference on AI Music Creativity, AIMC 2025
[code] [demo]

Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation
Jingyue Huang, Ke Chen, Yi-Hsuan Yang
International Society for Music Information Retrieval Conference, ISMIR 2024
[code] [demo]

MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies
Ke Chen*, Yusong Wu*, Haohe Liu*, Marianna Nezhurina, Taylor Berg-Kirkpatrick, Shlomo Dubnov
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024
[code] [api] [demo]

Multitrack Music Transformer: Learning Long-Term Dependencies in Music with Diverse Instruments
Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor Berg-Kirkpatrick
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023
[code] [demo] [intro video]

Deep Music Information Dynamics: Novel Framework for Reduced Neural-Network Music Representation with Applications to MIDI and Audio Analysis and Improvisation
Shlomo Dubnov, Ke Chen, Kevin Huang
Journal of Creative Music Systems, JCMS 2022
[code]

Music SketchNet: Controllable Music Generation via Factorized Representations of Pitch and Rhythm
Ke Chen, Cheng-i Wang, Taylor Berg-Kirkpatrick, Shlomo Dubnov
International Society for Music Information Retrieval Conference, ISMIR 2020
[code] [demo] [intro video]

POP909: A Pop-song Dataset for Music Arrangement Generation
Ke Chen*, Ziyu Wang*, Junyan Jiang, Yiyi Zhang, Maoran Xu, Shuqi Dai, Guxian Bin, Gus Xia International Society for Music Information Retrieval Conference, ISMIR 2020
[dataset] [intro video]

MusPy: A Toolkit for Symbolic Music Generation
Hao-Wen Dong, Ke Chen, Julian McAuley, Taylor Berg-Kirkpatrick
International Society for Music Information Retrieval Conference, ISMIR 2020
[code] [pip library] [intro video]

The Effect of Explicit Structure Encoding of Deep Neural Networks for Symbolic Music Generation
Ke Chen, Weilin Zhang, Shlomo Dubnov, Gus Xia, Wei Li
International Workshop on Multilayer Music Representation and Processing, MMRP 2019
[code]

Music Information Retrieval

BACHI: Boundary-Aware Symbolic Chord Recognition Through Masked Iterative Decoding on Pop and Classical Music
Minyang Yao, Ke Chen, Shlomo Dubnov, Taylor Berg-Kirkpatrick
In Submission
[code] [demo] [dataset]

AudioSR: Versatile Audio Super-resolution at Scale
Haohe Liu, Ke Chen, Qiao Tian, Wenwu Wang, Mark D. Plumbley
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024 (oral presentation)
[code] [demo] [api]

Towards Improving Harmonic Sensitivity and Prediction Stability for Singing Melody Extraction
Keren Shao*, Ke Chen*, Taylor Berg-Kirkpatrick, Shlomo Dubnov
International Society for Music Information Retrieval Conference, ISMIR 2023
[code]

A posthumous improvisation by Toots Thielemans
Marc Chemillier, Ke Chen, Mikhail Malt, Shlomo Dubnov
Toots Thielemans (1922-2016). A Century of Music across Europe and America, 2022.

TONET: Tone-Octave Network for Singing Melody Extraction from Polyphonic Music
Ke Chen, Shuai Yu, Cheng-i Wang, Wei Li, Taylor Berg-Kirkpatrick, Shlomo Dubnov
IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022
[code]

Large Vocabulary Chord Transcription via Chord Structure Decomposition
Junyan Jiang, Ke Chen, Wei Li, Gus Xia
International Society for Music Information Retrieval Conference, ISMIR 2019
[code]

Audio Representation Learning

Audio, Music, Speech Source Separation

Algorithmic Composition and Music Generation

Music Information Retrieval

Contact Me