从部分到整体:可控人体图像生成的统一参考框架|遮罩|编码器|视频生成模型
在人体图像可控生成领域,尽管在控制姿态和人物身份等方面取得了显著进展,但要通过不同人体部位实现精准控制仍面临重大挑战,尤其是在涉及多重可控条件时,控制效果往往难以保证。针对这一问题,北京航空航天大学的研究团队提出了一种新颖的研究方法“从部分到整体”(Parts2Whole)。这项技术能够利用多个参考图像,包括姿势图和不同的人体部位外观,生成高度可控的人体图像。该研究方法的核心在于其创新的语义感知外观编码器,共享自注意力机制和掩膜引导的主题选择机制,使得从多个参考图像中精确抽取目标特征成为可能。