最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

CVPR 2025

网站源码admin3浏览0评论

CVPR 2025

本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。

扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。

但,如果我们想要的不只是 “一个人” 的照片呢?

在朋友缺席的聚会中,我们是否可以 “补全” 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。

其中最棘手的,就是身份特征泄露(ID leakage)—— 明明是两个人,却因为特征混淆,生成出面容 “融合” 的人脸,令人难以分辨谁是谁。更进一步,用户往往还希望可以精确指定每个人的位置和动作,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。

与本文相关的文章

发布评论

评论列表(0)

  1. 暂无评论