CVPR 2025
扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。
但,如果我们想要的不只是 “一个人” 的照片呢?
在朋友缺席的聚会中,我们是否可以 “补全” 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。
其中最棘手的,就是身份特征泄露(ID leakage)—— 明明是两个人,却因为特征混淆,生成出面容 “融合” 的人脸,令人难以分辨谁是谁。更进一步,用户往往还希望可以精确指定每个人的位置和动作,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。