CVPR 2025

本文第一作者为密歇根州立大学计算机系博士生张益萌，系 OPTML 实验室成员，指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。

扩散模型（Diffusion Models, DMs）如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力，它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今，只需一段文字，就能生成一张极具风格的个性化头像，已经不再稀奇。

但，如果我们想要的不只是 “一个人” 的照片呢？

在朋友缺席的聚会中，我们是否可以 “补全” 一张大家都在的合影？在广告场景中，我们是否可以自由组合多位虚拟角色，讲述一个多人物的故事？个性化的多人图像生成正成为新的想象力疆域。但同时，它也带来了前所未有的技术挑战。

其中最棘手的，就是身份特征泄露（ID leakage）—— 明明是两个人，却因为特征混淆，生成出面容 “融合” 的人脸，令人难以分辨谁是谁。更进一步，用户往往还希望可以精确指定每个人的位置和动作，实现更自然真实的构图和创意有趣的互动。可一旦位置错乱，原本的故事就变了味儿。

科技改变生活-雨落星辰 - 所有的伟大,都源于一个勇敢的开始