杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!

AI圈这遍地开花的大好局面,让吃瓜群众们甚是惊喜。

这几天,大洋彼岸杀疯了!

Luma 的热乎劲儿还没过去,昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。


(查看详情请移步:Runway 版 Sora 发布:高保真、超强一致性,Gen-3 Alpha 震撼到网友了

更没想到的是,一觉醒来,Google DeepMind 也有了新消息,悄咪咪地发布了视频生成语音(V2A)技术的进展。

虽然这一功能还未向公众开放,不过从官方放出的视频 Demo 来看,效果那是相当丝滑。同时,Google DeepMind 强调,所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐,脚步声在混凝土上回响。(Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete)link image

黑灯瞎火的废弃仓库中,一个黑衣人犹如鬼魅般缓行,再配上诡异的音乐和脚步声,恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。(Wolf howling at the moon)link image

视频 Demo 一出,评论区清一水的追问:啥时候能用? imageimage

还有网友寄希望于开源社区当一回赛博菩萨,复制谷歌的这一技术。 image

其实,就在 Google DeepMind 官宣没多久,AI 音频领域的「扛把子」ElevenLabs 横插一脚,开源了一个上传视频自动配音的项目,可以为视频生成合适的音效。 image

链接: https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化,大小厂的你追我赶将会创造更加公平的竞争环境,而一旦这些技术成熟,AI 视频领域将会有无限可能。 imageimage

AI 视频告别无声电影

众所周知,视频生成模型正以惊人的速度发展。不过,无论是年初惊艳世人的 Sora,还是近期的可灵、Luma、Gen-3 Alpha,生成的全是「无声电影」,无一…

Continue reading the article

Google DeepMind Twitter



感谢阅读!如果您对AI的更多资讯感兴趣,可以查看更多AI文章:GPTNB

杀疯了!谷歌卷视频到语音,逼真音效让AI视频告别无声!

https://www.gptnb.com/2024/06/19/2024-06-18-auto5_2-oPqRZg/

作者

ByteAILab

发布于

2024-06-19

更新于

2025-03-21

许可协议