官方论文代码放出,OpenAI是如何实现图像版GPT-
人工智能 2025-05-07 09:53www.robotxin.com人工智能专业
OpenAI介绍:DALL-E论文与代码亮相
今年年初,一个名为DALL-E的大型模型在科技社区中引起了不小的震动。这款由OpenAI研发的图像生成工具,拥有高达120亿参数,能够将自然语言中的概念转化为栩栩如生的图像。你只需输入如“牛油果形状的椅子”,它便能即刻为你呈现出形态各异的绿色牛油果椅子图像。
万众期待之下,OpenAI终于放出了DALL-E的部分论文与实现代码。在历经近两个月的等待后,这一令人瞩目的项目终于揭开了神秘的面纱。不过需要注意的是,目前该项目仍在更新中。截止发稿时,DALL-E仅公开了关于图像重建部分的d-VAE训练的CNN编码器和解码器代码,而Transformer部分尚未露面。数据集暂时无法公开使用,目前公开的论文也仅限于d-VAE部分。
项目地址已经悄然登陆GitHub:[ install git+
在解码器和编码器的背后,隐藏着论文中的技术细节。年初时,论文尚未公开,就有人开始尝试复现DALL·E的原理结构。而现在,随着论文的发布,人们不禁好奇它是否颠覆了之前的预想。实际上,传统文本到图像的生成方法主要集中在寻找更好的建模假设在固定的训练数据集上。而这项研究提出了一种基于transformer的简单方法,将文本和图像token作为单个数据流进行自回归建模。在足够的数据和扩展下,其表现与以往的领域特定模型不相上下。这不仅让我们对DALL-E的未来充满期待,也对未来人工智能技术的发展充满了想象。现在只是冰山一角,未来,我们将见证更多的技术奇迹诞生在OpenAI的手中。
上一篇:马斯克祝福蓝色起源:送《星际迷航》舰长
下一篇:北京市中考成绩查询