可通过文字生成连贯动作视频 谷歌推出 AI 扩散模型 Lumiere

智能机器人 2025-03-25 17:24www.robotxin.com人工智能机器人网

谷歌研究院近日发布了一款名为Lumiere的“文生视频”扩散模型,引起了IT之家的关注。该模型采用了创新的“Space-Time U-Net”基础架构,能够一次性生成完整、真实、动作连贯的视频。

据谷歌介绍,传统的“文生视频”模型通常采取分段生成的方式,先产生几张关键帧,再通过“时间超级分辨率”技术生成关键帧之间的视频文件。虽然这种方法可以节省RAM,但难以生成连贯且逼真的视频内容。而Lumiere的最大亮点在于其全新的“Space-Time U-Net”架构,该架构能够在空间和时间上同时降采样信号,从而在更紧凑的时空中进行更多运算,生成持续时间更长、动作更连贯的视频。

通过应用这一独特架构,Lumiere能够生成高质量的视频内容。据悉,该模型一次可以生成80帧的视频,虽然时间看起来不长,但已经超过了大多数媒体作品中的平均镜头时长。研究人员指出,这一成果在文生视频领域是一项重大突破。

除了应用“Space-Time U-Net”基础架构外,谷歌还介绍了Lumiere的其他基础特性。该AI建立在经过预先训练的“文生图”模型基础上,通过生成视频分帧的基本像素草稿,再逐步提升分帧的分辨率和细节。还利用了“Multidiffusion”通用生成框架提升模型稳定性,保证了最终输出的视频一致性和连续性。

Lumiere的推出将为文生视频领域带来全新的视角和可能性。谷歌研究院的这项创新技术,有望为未来的视频制作带来更加便捷、高效、高质量的方式。

上一篇:国内工业机器人招聘网 下一篇:没有了

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by