可通过文字生成连贯动作视频谷歌推出 AI 扩散模型 Lumiere

智能机器人 2025-03-25 17:24www.robotxin.com人工智能机器人网

谷歌研究院近日发布了一款名为Lumiere的“文生视频”扩散模型，引起了IT之家的关注。该模型采用了创新的“Space-Time U-Net”基础架构，能够一次性生成完整、真实、动作连贯的视频。

据谷歌介绍，传统的“文生视频”模型通常采取分段生成的方式，先产生几张关键帧，再通过“时间超级分辨率”技术生成关键帧之间的视频文件。虽然这种方法可以节省RAM，但难以生成连贯且逼真的视频内容。而Lumiere的最大亮点在于其全新的“Space-Time U-Net”架构，该架构能够在空间和时间上同时降采样信号，从而在更紧凑的时空中进行更多运算，生成持续时间更长、动作更连贯的视频。

通过应用这一独特架构，Lumiere能够生成高质量的视频内容。据悉，该模型一次可以生成80帧的视频，虽然时间看起来不长，但已经超过了大多数媒体作品中的平均镜头时长。研究人员指出，这一成果在文生视频领域是一项重大突破。

除了应用“Space-Time U-Net”基础架构外，谷歌还介绍了Lumiere的其他基础特性。该AI建立在经过预先训练的“文生图”模型基础上，通过生成视频分帧的基本像素草稿，再逐步提升分帧的分辨率和细节。还利用了“Multidiffusion”通用生成框架提升模型稳定性，保证了最终输出的视频一致性和连续性。

Lumiere的推出将为文生视频领域带来全新的视角和可能性。谷歌研究院的这项创新技术，有望为未来的视频制作带来更加便捷、高效、高质量的方式。

上一篇：国内工业机器人招聘网下一篇：没有了

可通过文字生成连贯动作视频谷歌推出 AI 扩散模型 Lumiere

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

可通过文字生成连贯动作视频 谷歌推出 AI 扩散模型 Lumiere

工业机器人

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

可通过文字生成连贯动作视频谷歌推出 AI 扩散模型 Lumiere