Mushui Liu 刘木水

About Me

I am currently a Researcher at Alibaba Group through the T-Star Lab Talent Program, also serving as a corporate postdoctoral fellow under the supervision of Prof. Jun Xiao and Dr. Ying Chen.

I received my Ph.D. degree in the College of Information Science & Electronic Engineering from Zhejiang University in June 2025, where I was supervised by Prof. Yunlong Yu. During my Ph.D. period, I worked closely with Bozheng Li, Yuhang Ma, Zhen Yang, Wanggui He, Dong She, and Dr. Siming Fu. I also received my B.S. degree from Zhejiang University in 2020.

My research focuses on advancing the frontiers of multimodal artificial intelligence, with particular emphasis on four key areas: 🖼️ ① Image Generation, 🔗 ② Unified Models, 🎬 ③ Video Understanding/Video Generation, and 📚 ④ Representation Learning.

💬 Our team is hiring research interns which have strong engineering skills and a strong interest in AIGC. Feel free to drop me an email (lms@zju.edu.cn) if you have an interest in the above topics, and remote cooperation is welcome.

🔥 News

Jan 26, 2026	🎉🎉🎉 One paper is accepted to ICLR-2026.
Nov 08, 2025	🎉🎉🎉 Two paper is accepted to AAAI-2026.
Sep 27, 2025	🎉🎉🎉 One paper is accepted to Neurocomputing.
May 19, 2025	🎉🎉🎉 One paper is accepted to Knowledge-Based Systems.
Apri 4, 2025	🎉🎉🎉 One CVPR paper is selected as Highlight.
Feb 27, 2025	🎉🎉🎉 One paper is accepted to CVPR-2025.
Jan 9, 2025	🎉🎉🎉 One paper is accepted to IEEE Transactions on Circuits and Systems for Video Technology.
Dec 20, 2024	🎉🎉🎉 One paper is accepted to Neural Networks.
Dec 12, 2024	🎉🎉🎉 Four papers are accepted to AAAI-2025.
July 01, 2024	🎉🎉🎉 One paper is accepted to ECCV-2024.
July 15, 2024	🎉🎉🎉 One paper is accepted to ACM MM-2024.
July 12, 2024	🎉🎉🎉 One paper is accepted to ECAI-2024.
Feb 03, 2024	🎉🎉🎉 One paper is accepted to Neural Networks.
Oct 23, 2022	🎉🎉🎉 One paper is accepted to Neurocomputing.

📝 Selected Publications

Full publication list can be found on Google Scholar.
^# co-first author | ^* corresponding author.

Image Generation TFCustom: Customized Image Generation with Time-Aware Frequency Feature Guidance [Paper]
Mushui Liu^#, Dong She^#, Jingxuan Pang, Qihan Huang, Jiacheng Ying, Wanggui He, Yuanlei Hou, Siming Fu^*
IEEE Conference on Computer Vision and Pattern Recognition (CVPR, Highlight ⭐⭐⭐) , 2025.
Image Generation MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement [Paper]
Dong She^#, Siming Fu^#, Mushui Liu^#, Qiaoqiao Jin, Hualiang Wang, Mu Liu, Jidong Jiang
International Conference on Learning Representations (ICLR-2026).
Unified Models FUSE: Fine-Grained and Semantic-Aware Learning for Unified Image Understanding and Generation
Peng Zhang^#, Wanggui He^#, Mushui Liu^#, Wenyi Xiao, Siyu Zou, Yuan Li, Xingjian Wang, Guanghao Zhang, Yanpeng Liu, Weilong Dai, Jinlong Liu, Shuyi Ying, Ruikai Zhou, Yunlong Yu, Yubo Tao, Hai Lin^*, Hao Jiang^*
The 40th Annual AAAI Conference on Artificial Intelligence (AAAI). 2026.
Video Understanding & Generation CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation [Paper]
Guozhen Zhang^#, Tao Zhong^#, Yan Xia^#, Mushui Liu^#, Zhelun Yu, Haoyuan Li, Wanggui He, Fangxun Shu, ...
The 40th Annual AAAI Conference on Artificial Intelligence (AAAI). 2026.
Image Generation LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [Paper]
Mushui Liu^#, Yuhang Ma^#, Zhen Yang, Jun Dan, Yunlong Yu^*, Zeng Zhao^*, Bai Liu, Changjie Fan, Zhipeng Hu
The 39th Annual AAAI Conference on Artificial Intelligence (AAAI). 2025.
Unified Models Mars: Mixture of Auto-Regressive Models for Fine-grained Text-to-Image Synthesis [Paper]
Wanggui He^#, Siming Fu^#, Mushui Liu^#, Xierui Wang, Wenyi Xiao, Fangxun Shu, Yi Wang, Lei Zhang, Zhelun Yu, Haoyuan Li, Ziwei Huang, LeiLei Gan^*, Hao Jiang^*
The 39th Annual AAAI Conference on Artificial Intelligence (AAAI). 2025.
Video Understanding & Generation Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [Paper]
Bozheng Li^#, Mushui Liu^#, Gaoang Wang, Yunlong Yu^*
The 39th Annual AAAI Conference on Artificial Intelligence (AAAI). 2025.
Representation Learning Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [Paper]
Mushui Liu, Fangtai Wu, Bozheng Li, Ziqian Lu, Yunlong Yu^*, Xi Li
The 39th Annual AAAI Conference on Artificial Intelligence (AAAI). 2025.
Representation Learning Improving Zero-Shot Generalization for CLIP with Variational Adapter [Paper]
Ziqian Lu, Fangtai Shen, Mushui Liu, Yunlong Yu^*, Zhao Wang, Xi Li, Jungong Han
European Conference on Computer Vision (ECCV). 2024.
Video Understanding & Generation OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning [Paper]
Mushui Liu, Bozheng Li, Yunlong Yu^*
European Conference on Artificial Intelligence (ECAI). 2024.
Representation Learning Variational Adapter: Improving CLIP in Data-Imbalanced Scenarios [Paper]
Ziqian Lu, Mushui Liu, Yunlong Yu^*, Zhao Wang, Xi Li, Jungong Han
IEEE Transactions on Circuits and Systems for Video Technology (IEEE TCSVT). 2025.
Representation Learning Synth-CLIP: Synthetic Data Make CLIP Generalize Better in Data-Limited Scenarios [Paper]
Mushui Liu, Weijie He, Ziqian Lu, Jun Dan, Yunlong Yu^*, Yingming Li, Xi Li, Jungong Han
Neural Networks (Neural Networks). 2025.
Representation Learning Tolerant Self-Distillation for Image Classification [Paper]
Mushui Liu, Yunlong Yu^*, Zhong Ji, Jungong Han, Zhongfei Zhang
Neural Networks (Neural Networks). 2024.
Representation Learning Fully Fine-Tuned CLIP Models are Efficient Few-Shot Learners [Paper]
Mushui Liu, Bozheng Li, Jun Dan, Ziqian Lu, Zhao Wang, Yunlong Yu^*
Knowledge-Based Systems (KBS). 2025.
Representation Learning Hybrid mask generation for infrared small target detection with single-point supervision [Paper]
Weijie He, Mushui Liu, Yunlong Yu^*
Neurocomputing (Neurocomputing). 2025.
Representation Learning Lightweight MIMO-WNet for single image deblurring [Paper]
Mushui Liu, Yunlong Yu^*, Yingming Li, Zhong Ji, Wen Chen, Yang Peng
Neurocomputing (Neurocomputing), Vol. 516, pp. 106-114. 2023.
Image Generation CoAR: Concept Injection into Autoregressive Models for Personalized Text-to-Image Generation [Paper]
Fangtai Wu^#, Mushui Liu^#, Weijie He, Wanggui He, Hao Jiang, Zhao Wang, Yunlong Yu^*
In Submission.
Image Generation RestorerID: Towards Tuning-Free Face Restoration with ID Preservation [Paper]
Jiacheng Ying^#, Mushui Liu^#, Zhaoyang Wu, Rui Zhang, Zhelun Yu, Siming Fu, Shiyu Cao, Chen Wu, Yunlong Yu, Hailin Shen^*
In Submission.
Image Generation RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification [Paper]
Zhen Yang, Guibao Shen, Liang Hou, Mushui Liu, Luozhou Wang, Xin Tao, Pengfei Wan, Di Zhang, Ying-Cong Chen^*
In Submission.
Unified Models Mint: Multi-Modal Chain of Thought in Unified Generative Models for Enhanced Image Generation [Paper]
Yi Wang^#, Mushui Liu^#, Wanggui He^#, Lei Zhang, Ziwei Huang, Guanghao Zhang, Fangxun Shu, Yubo Tao, ...
In Submission.
Video Understanding & Generation DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation [Paper]
Mushui Liu^#, Weijie He^#, Yunlong Yu^*, Zhao Wang, Chao Wu
In Submission.
Video Understanding & Generation CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers [Paper]
Dong She^#, Mushui Liu^#, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, ...
In Submission.
Representation Learning CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation [Paper]
Mushui Liu, Jun Dan, Ziqian Lu, Yunlong Yu^*, Yuhang Li, Xi Li
In Submission.

📚 Academic Services

Conference: ICLR, CVPR, AAAI, ACM'MM, BMVC.
Journals: TMM, TCSVT, KBS.

💻 Internships

2024.06 - 2025, Content AI, Alibaba Group, Hangzhou.
2024.01 - 2024.05, Fuxi AI Lab, NetEase, Hangzhou.
2022, Disney Hulu, Beijing.
2022, ByteDance, Beijing.