Publications | Qizhen Weng 翁祈桢

2026

EuroSys

Suika: Efficient and High-quality Re-scheduling of 3D-parallelized LLM Training Jobs in Shared Clusters

Yuxuan Wang, Yanbo Wang, Chen Chen, Chunyu Xue, Qizhen Weng, Yin Chen, Zeren Li, Xuqi Zhu, Yongqiang Yang, Quan Chen, and 1 more author

In 21th ACM European Conference on Computer Systems (EuroSys), Apr 2026

Bib HTML PDF

@inproceedings{wang2026Suika,
  title = {Suika: Efficient and High-quality Re-scheduling of 3D-parallelized LLM Training Jobs in Shared Clusters},
  author = {Wang, Yuxuan and Wang, Yanbo and Chen, Chen and Xue, Chunyu and Weng, Qizhen and Chen, Yin and Li, Zeren and Zhu, Xuqi and Yang, Yongqiang and Chen, Quan and Guo, Minyi},
  booktitle = {21th ACM European Conference on Computer Systems (EuroSys)},
  year = {2026},
  month = apr,
  address = {Edinburgh, UK},
}

Efficient Data Passing for Serverless Inference Workflows: A GPU-Centric Approach

Hao Wu, Yaochen Liu, Minchen Yu, Qizhen Weng, Junxiao Deng, Yue Yu, Hao Fan, Song Wu, Wei Wang, and Hai Jin

In 21th ACM European Conference on Computer Systems (EuroSys), Apr 2026

Bib HTML PDF

@inproceedings{wu2026Grouter,
  title = {Efficient Data Passing for Serverless Inference Workflows: A GPU-Centric Approach},
  author = {Wu, Hao and Liu, Yaochen and Yu, Minchen and Weng, Qizhen and Deng, Junxiao and Yu, Yue and Fan, Hao and Wu, Song and Wang, Wei and Jin, Hai},
  booktitle = {21th ACM European Conference on Computer Systems (EuroSys)},
  year = {2026},
  month = apr,
  address = {Edinburgh, UK},
}

2025

TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model

Yabo Chen, Yuanzhi Liang, Jiepeng Wang, Tingxi Chen, Junfei Cheng, Zixiao Gu, Yuyang Huang, Zicheng Jiang, Wei Li, Tian Li, and 17 more authors

arXiv preprint arXiv:2601.00051, Dec 2025

Ranked No. 1 on the WorldScore Leaderboard in December 2025

Bib HTML PDF

@article{chen2025TeleWorld,
  title = {{TeleWorld}: Towards Dynamic Multimodal Synthesis with a 4D World Model},
  author = {Chen, Yabo and Liang, Yuanzhi and Wang, Jiepeng and Chen, Tingxi and Cheng, Junfei and Gu, Zixiao and Huang, Yuyang and Jiang, Zicheng and Li, Wei and Li, Tian and Li, Weichen and Li, Zuoxin and Liu, Guangce and Liu, Jialun and Liu, Junqi and Wang, Haoyuan and Weng, Qizhen and Wu, Xuan'er and Xiang, Xunzhi and Yang, Xiaoyan and Zhang, Xin and Zhang, Shiwen and Zhou, Junyu and Zhou, Chengcheng and Huang, Haibin and Zhang, Chi and Li, Xuelong},
  journal = {arXiv preprint arXiv:2601.00051},
  publisher = {arXiv},
  year = {2025},
  month = dec,
  note = {Ranked No. 1 on the WorldScore Leaderboard in December 2025},
}

Computation-Bandwidth-Memory Trade-offs: A Unified Paradigm for AI Infrastructure

Yuankai Fan, Qizhen Weng, and Xuelong Li

arXiv preprint arXiv:2601.11577, Dec 2025

Bib HTML PDF

@article{fan2025AITrinity,
  title = {Computation-Bandwidth-Memory Trade-offs: A Unified Paradigm for AI Infrastructure},
  author = {Fan, Yuankai and Weng, Qizhen and Li, Xuelong},
  journal = {arXiv preprint arXiv:2601.11577},
  publisher = {arXiv},
  year = {2025},
  month = dec,
}

Janus: Disaggregating Attention and Experts for Scalable MoE Inference

Zhexiang Zhang, Ye Wang, Xiangyu Wang, Yumiao Zhao, Jingzhe Jiang, Qizhen Weng, Shaohuai Shi, Yin Chen, and Minchen Yu

arXiv preprint arXiv:2512.13525, Dec 2025

Bib HTML PDF

@article{zhang2025Janus,
  title = {Janus: Disaggregating Attention and Experts for Scalable MoE Inference},
  author = {Zhang, Zhexiang and Wang, Ye and Wang, Xiangyu and Zhao, Yumiao and Jiang, Jingzhe and Weng, Qizhen and Shi, Shaohuai and Chen, Yin and Yu, Minchen},
  journal = {arXiv preprint arXiv:2512.13525},
  publisher = {arXiv},
  year = {2025},
  month = dec,
}

2025.Vicinagearth-NL2SQL-Fan-preview.png

Rethinking Data in NL2SQL: A Survey of What We Have and What We Expect

Yuankai Fan, Qizhen Weng, Yin Chen, and X. Sean Wang

Vicinagearth, Nov 2025

Bib HTML PDF

@article{fan2025NL2SQL,
  author = {Fan, Yuankai and Weng, Qizhen and Chen, Yin and Wang, X. Sean},
  title = {Rethinking Data in NL2SQL: A Survey of What We Have and What We Expect},
  journal = {Vicinagearth},
  volume = {2},
  number = {1},
  pages = {15},
  year = {2025},
  month = nov,
  issn = {3005-060X},
  doi = {10.1007/s44336-025-00026-9},
  url = {https://doi.org/10.1007/s44336-025-00026-9},
}

Toppings: CPU-Assisted, Rank-Aware Adapter Serving for LLM Inference

Suyi Li, Hanfeng Lu, Tianyuan Wu, Minchen Yu, Qizhen Weng, Xusheng Chen, Yizhou Shan, Binhang Yuan, and Wei Wang

In 2025 USENIX Annual Technical Conference (ATC), Jul 2025

Bib HTML PDF

@inproceedings{li2025Toppings,
  title = {Toppings: CPU-Assisted, Rank-Aware Adapter Serving for {LLM} Inference},
  author = {Li, Suyi and Lu, Hanfeng and Wu, Tianyuan and Yu, Minchen and Weng, Qizhen and Chen, Xusheng and Shan, Yizhou and Yuan, Binhang and Wang, Wei},
  booktitle = {2025 {USENIX} Annual Technical Conference (ATC)},
  publisher = {{USENIX} Association},
  year = {2025},
  month = jul,
  pages = {612--629},
  address = {Boston, MA},
  url = {https://www.usenix.org/conference/atc25/presentation/li-suyi-toppings},
}

2025.AI4Good-GreenMultiCluster-Weng-preview.png

AI for green multi-cluster: Intelligent management towards green and low-carbon, large-scale multi-clusters

Qizhen Weng, and Yuankai Fan

In AI for Good Innovate for Impact Report, Jul 2025

Bib HTML PDF

@incollection{weng2025GreenMultiCluster,
  author = {Weng, Qizhen and Fan, Yuankai},
  title = {AI for green multi-cluster: Intelligent management towards green and low-carbon, large-scale multi-clusters},
  booktitle = {AI for Good Innovate for Impact Report},
  publisher = {International Telecommunication Union},
  month = jul,
  year = {2025},
  chapter = {4.2-Climate Change},
  section = {Use Case 8},
  pages = {182--187},
  url = {https://www.itu.int/hub/publication/t-ai4g-ai4good-2025-1/},
}

Efficient Unified Caching for Accelerating Heterogeneous AI Workloads

Tianze Wang, Yifei Liu, Chen Chen, Pengfei Zuo, Jiawei Zhang, Qizhen Weng, Yin Chen, Zhenhua Han, Jieru Zhao, Quan Chen, and 1 more author

arXiv preprint arXiv:2506.12370, Jun 2025

Bib HTML PDF

@article{wang2025IGTCache,
  title = {Efficient Unified Caching for Accelerating Heterogeneous AI Workloads},
  author = {Wang, Tianze and Liu, Yifei and Chen, Chen and Zuo, Pengfei and Zhang, Jiawei and Weng, Qizhen and Chen, Yin and Han, Zhenhua and Zhao, Jieru and Chen, Quan and Guo, Minyi},
  journal = {arXiv preprint arXiv:2506.12370},
  publisher = {arXiv},
  year = {2025},
  month = jun,
}

GPU-Disaggregated Serving for Deep Learning Recommendation Models at Scale

Lingyun Yang, Yongchen Wang, Yinghao Yu, Qizhen Weng, Jianbo Dong, Kan Liu, Chi Zhang, Yanyi Zi, Hao Li, Zechao Zhang, and 12 more authors

In 22nd USENIX Symposium on Networked Systems Design and Implementation (NSDI), Apr 2025

Bib HTML PDF

@inproceedings{yang2025Prism,
  title = {{GPU-Disaggregated} Serving for Deep Learning Recommendation Models at Scale},
  author = {Yang, Lingyun and Wang, Yongchen and Yu, Yinghao and Weng, Qizhen and Dong, Jianbo and Liu, Kan and Zhang, Chi and Zi, Yanyi and Li, Hao and Zhang, Zechao and Wang, Nan and Dong, Yu and Zheng, Menglei and Xi, Lanlan and Lu, Xiaowei and Ye, Liang and Yang, Guodong and Fu, Binzhang and Lan, Tao and Zhang, Liping and Qu, Lin and Wang, Wei},
  booktitle = {22nd USENIX Symposium on Networked Systems Design and Implementation (NSDI)},
  publisher = {USENIX Association},
  year = {2025},
  isbn = {978-1-939133-46-5},
  address = {Philadelphia, PA},
  pages = {847--863},
  url = {https://www.usenix.org/conference/nsdi25/presentation/yang},
  month = apr,
}

2024

Efficient Training of Large Language Models on Distributed Infrastructures: A Survey

Jiangfei Duan, Shuo Zhang, Zerui Wang, Lijuan Jiang, Wenwen Qu, Qinghao Hu, Guoteng Wang, Qizhen Weng, Hang Yan, Xingcheng Zhang, and 6 more authors

arXiv preprint arXiv:2407.20018, Jul 2024

Bib HTML PDF

@article{duan2024LLMSurvey,
  title = {Efficient Training of Large Language Models on Distributed Infrastructures: A Survey},
  author = {Duan, Jiangfei and Zhang, Shuo and Wang, Zerui and Jiang, Lijuan and Qu, Wenwen and Hu, Qinghao and Wang, Guoteng and Weng, Qizhen and Yan, Hang and Zhang, Xingcheng and Qiu, Xipeng and Lin, Dahua and Wen, Yonggang and Jin, Xin and Zhang, Tianwei and Sun, Peng},
  journal = {arXiv preprint arXiv:2407.20018},
  publisher = {arXiv},
  year = {2024},
  month = jul,
}

InternLM2 Technical Report

Zheng Cai, Maosong Cao, Haojiong Chen, Kai Chen, Keyu Chen, Xin Chen, Xun Chen, Zehui Chen, Zhi Chen, Pei Chu, and 90 more authors

arXiv preprint arXiv:2403.17297, Jul 2024

Bib HTML PDF Code

@article{cai2024Internlm2,
  title = {InternLM2 Technical Report},
  author = {Cai, Zheng and Cao, Maosong and Chen, Haojiong and Chen, Kai and Chen, Keyu and Chen, Xin and Chen, Xun and Chen, Zehui and Chen, Zhi and Chu, Pei and Dong, Xiaoyi and Duan, Haodong and Fan, Qi and Fei, Zhaoye and Gao, Yang and Ge, Jiaye and Gu, Chenya and Gu, Yuzhe and Gui, Tao and Guo, Aijia and Guo, Qipeng and He, Conghui and Hu, Yingfan and Huang, Ting and Jiang, Tao and Jiao, Penglong and Jin, Zhenjiang and Lei, Zhikai and Li, Jiaxing and Li, Jingwen and Li, Linyang and Li, Shuaibin and Li, Wei and Li, Yining and Liu, Hongwei and Liu, Jiangning and Hong, Jiawei and Liu, Kaiwen and Liu, Kuikun and Liu, Xiaoran and Lv, Chengqi and Lv, Haijun and Lv, Kai and Ma, Li and Ma, Runyuan and Ma, Zerun and Ning, Wenchang and Ouyang, Linke and Qiu, Jiantao and Qu, Yuan and Shang, Fukai and Shao, Yunfan and Song, Demin and Song, Zifan and Sui, Zhihao and Sun, Peng and Sun, Yu and Tang, Huanze and Wang, Bin and Wang, Guoteng and Wang, Jiaqi and Wang, Jiayu and Wang, Rui and Wang, Yudong and Wang, Ziyi and Wei, Xingjian and Weng, Qizhen and Wu, Fan and Xiong, Yingtong and Xu, Chao and Xu, Ruiliang and Yan, Hang and Yan, Yirong and Yang, Xiaogui and Ye, Haochen and Ying, Huaiyuan and Yu, Jia and Yu, Jing and Zang, Yuhang and Zhang, Chuyu and Zhang, Li and Zhang, Pan and Zhang, Peng and Zhang, Ruijie and Zhang, Shuo and Zhang, Songyang and Zhang, Wenjian and Zhang, Wenwei and Zhang, Xingcheng and Zhang, Xinyue and Zhao, Hui and Zhao, Qian and Zhao, Xiaomeng and Zhou, Fengzhe and Zhou, Zaida and Zhuo, Jingming and Zou, Yicheng and Qiu, Xipeng and Qiao, Yu and Lin, Dahua},
  journal = {arXiv preprint arXiv:2403.17297},
  publisher = {arXiv},
  year = {2024},
}

2023

Beware of Fragmentation: Scheduling GPU-Sharing Workloads with Fragmentation Gradient Descent

Qizhen Weng, Lingyun Yang, Yinghao Yu, Wei Wang, Xiaochuan Tang, Guodong Yang, and Liping Zhang

In 2023 USENIX Annual Technical Conference (ATC), Jul 2023

Bib HTML PDF Code Poster Slides

@inproceedings{weng2023FGD,
  title = {Beware of Fragmentation: Scheduling {GPU}-Sharing Workloads with Fragmentation Gradient Descent},
  author = {Weng, Qizhen and Yang, Lingyun and Yu, Yinghao and Wang, Wei and Tang, Xiaochuan and Yang, Guodong and Zhang, Liping},
  booktitle = {2023 {USENIX} Annual Technical Conference (ATC)},
  publisher = {{USENIX} Association},
  year = {2023},
  isbn = {978-1-939133-35-9},
  address = {Boston, MA},
  pages = {995--1008},
  url = {https://www.usenix.org/conference/atc23/presentation/weng},
}

2022

MLaaS in the Wild: Workload Analysis and Scheduling in Large-Scale Heterogeneous GPU Clusters

Qizhen Weng, Wencong Xiao, Yinghao Yu, Wei Wang, Cheng Wang, Jian He, Yong Li, Liping Zhang, Wei Lin, and Yu Ding

In 19th USENIX Symposium on Networked Systems Design and Implementation (NSDI), Jul 2022

Bib HTML PDF Code Slides

@inproceedings{weng2022MLaaS,
  title = {{MLaaS} in the Wild: Workload Analysis and Scheduling in Large-Scale Heterogeneous {GPU} Clusters},
  author = {Weng, Qizhen and Xiao, Wencong and Yu, Yinghao and Wang, Wei and Wang, Cheng and He, Jian and Li, Yong and Zhang, Liping and Lin, Wei and Ding, Yu},
  booktitle = {19th USENIX Symposium on Networked Systems Design and Implementation (NSDI)},
  pages = {945--960},
  year = {2022},
}

Workload Consolidation in Alibaba Clusters: the Good, the Bad, and the Ugly

Yongkang Zhang, Yinghao Yu, Wei Wang, Qiukai Chen, Jie Wu, Zuowei Zhang, Jiang Zhong, Tianchen Ding, Qizhen Weng, Lingyun Yang, and 4 more authors

In 13th ACM Symposium on Cloud Computing (SoCC), Jul 2022

Bib HTML PDF Slides

@inproceedings{zhang2022Workload,
  title = {Workload Consolidation in {Alibaba} Clusters: the Good, the Bad, and the Ugly},
  author = {Zhang, Yongkang and Yu, Yinghao and Wang, Wei and Chen, Qiukai and Wu, Jie and Zhang, Zuowei and Zhong, Jiang and Ding, Tianchen and Weng, Qizhen and Yang, Lingyun and Wang, Cheng and He, Jian and Yang, Guodong and Zhang, Liping},
  booktitle = {13th ACM Symposium on Cloud Computing (SoCC)},
  pages = {210--225},
  year = {2022},
}

2021

Accelerating Distributed Learning in Non-Dedicated Environments

Chen Chen, Qizhen Weng, Wei Wang, Baochun Li, and Bo Li

IEEE Transactions on Cloud Computing (TCC), Jul 2021

Bib HTML PDF

@article{chen2021Accelerating,
  title = {Accelerating Distributed Learning in Non-Dedicated Environments},
  author = {Chen, Chen and Weng, Qizhen and Wang, Wei and Li, Baochun and Li, Bo},
  journal = {IEEE Transactions on Cloud Computing (TCC)},
  year = {2021},
  publisher = {IEEE},
}

2020

Metis: Learning to Schedule Long-Running Applications in Shared Container Clusters at Scale

Luping Wang, Qizhen Weng, Wei Wang, Chen Chen, and Bo Li

In International Conference for High Performance Computing, Networking, Storage and Analysis (SC), Jul 2020

Bib HTML PDF Code Slides

@inproceedings{wang2020Metis,
  title = {Metis: Learning to Schedule Long-Running Applications in Shared Container Clusters at Scale},
  author = {Wang, Luping and Weng, Qizhen and Wang, Wei and Chen, Chen and Li, Bo},
  booktitle = {International Conference for High Performance Computing, Networking, Storage and Analysis (SC)},
  pages = {1--17},
  year = {2020},
  organization = {IEEE},
}

Semi-Dynamic Load Balancing: Efficient Distributed Learning in Non-Dedicated Environments

Chen Chen, Qizhen Weng, Wei Wang, Baochun Li, and Bo Li

In 11th ACM Symposium on Cloud Computing (SoCC), Jul 2020

Bib HTML PDF

@inproceedings{chen2020Semi,
  title = {Semi-Dynamic Load Balancing: Efficient Distributed Learning in Non-Dedicated Environments},
  author = {Chen, Chen and Weng, Qizhen and Wang, Wei and Li, Baochun and Li, Bo},
  booktitle = {11th ACM Symposium on Cloud Computing (SoCC)},
  pages = {431--446},
  year = {2020},
}

2019

APSys

Towards Framework-Independent, Non-Intrusive Performance Characterization for Dataflow Computation

Huangshi Tian, Qizhen Weng, and Wei Wang

In Proceedings of the 10th ACM SIGOPS Asia-Pacific Workshop on Systems (APSys), Jul 2019

Bib HTML PDF

@inproceedings{tian2019Towards,
  title = {Towards Framework-Independent, Non-Intrusive Performance Characterization for Dataflow Computation},
  author = {Tian, Huangshi and Weng, Qizhen and Wang, Wei},
  booktitle = {Proceedings of the 10th ACM SIGOPS Asia-Pacific Workshop on Systems (APSys)},
  pages = {54--60},
  year = {2019},
}

2018

SoCC

Fast Distributed Deep Learning via Worker-Adaptive Batch Sizing

Chen Chen, Qizhen Weng, Wei Wang, Baochun Li, and Bo Li

In 9th ACM Symposium on Cloud Computing (SoCC), Jul 2018

Bib HTML PDF

@inproceedings{chen2018Fast,
  title = {Fast Distributed Deep Learning via Worker-Adaptive Batch Sizing},
  author = {Chen, Chen and Weng, Qizhen and Wang, Wei and Li, Baochun and Li, Bo},
  booktitle = {9th ACM Symposium on Cloud Computing (SoCC)},
  pages = {521--521},
  year = {2018},
}

ICDCS

Opus: Fair and Efficient Cache Sharing for In-Memory Data Analytics

Yinghao Yu, Wei Wang, Jun Zhang, Qizhen Weng, and Khaled Ben Letaief

In 38th IEEE International Conference on Distributed Computing Systems (ICDCS), Jul 2018

Bib HTML PDF

@inproceedings{yu2018Opus,
  title = {Opus: Fair and Efficient Cache Sharing for In-Memory Data Analytics},
  author = {Yu, Yinghao and Wang, Wei and Zhang, Jun and Weng, Qizhen and Letaief, Khaled Ben},
  booktitle = {38th IEEE International Conference on Distributed Computing Systems (ICDCS)},
  pages = {154--164},
  year = {2018},
  organization = {IEEE},
}