人物照片+文字 = 定制化视频,腾讯光子开源ID-Animator

近年来,定制化的人物生成技术在社区中引起了广泛关注。一系列创新性的模型,如 IP-Adapter、Photomaker、InstantID 等,已在图像生成领域取得了令人瞩目的成果。


这些定制化内容生成方法逐渐成为主流,其一个重要的优势便是即插即用,取代了那些需要逐例微调的 Dreambooth,LoRA 等方法。

然而,尽管在图像生成领域取得了巨大的成功,这些方法在视频生成领域却遇到了阻碍。相较于图像,视频生成模型的训练需要更大的算力投入。同时,在视频数据集方面,迄今为止仍缺乏类似图像生成领域高质量的文本 - 视频配对人脸数据集。此外,如何提取人物身份一致性的特征也是一个难题。

为了应对这些挑战,腾讯光子近期发布的工作 ID-Animator,提出了一种文本驱动的人物视频生成框架。该框架旨在根据给定的一张参考图片,生成一致性的角色 定制化视频。通过这一创新性技术,研究者可以期待在不久的将来,人们将能够更轻松地实现定制化的人物视频生成,从而为各种应用场景带来更加丰富的视觉体验。

论文地址: https://arxiv.org/abs/2404.15275
Github 地址: https://github.com/ID-Animator/ID-Animator
Huggingface 地址: https://huggingface.co/spaces/ID-Animator/ID-Animator

首先,让我们直观感受一下 ID-Animator 生成的视频效果,能够轻松的让不同的角色做起丰富的动作:链接


更多详细内容,请阅读原论文。



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

人物照片+文字 = 定制化视频,腾讯光子开源ID-Animator

https://www.gptnb.com/2024/05/19/2024-05-18-auto5_2-HAidnV/

作者

ByteAILab

发布于

2024-05-19

更新于

2025-03-21

许可协议