上海人工智能实验室发布多模态语料

机器人技术 2025-06-03 19:26www.robotxin.com机器人技术

近日,上海人工智能实验室携手语料数据联盟成员单位共同宣布开源发布一项重大成果——“书生·万卷”1.0多模态预训练语料。这一创新项目汇聚了联盟成员丰富的内容积累以及上海人工智能实验室强大的数据处理能力,旨在为学术界和产业界提供高质量、大规模的多模态预训练语料。

此次开源的数据总量超过惊人的2TB,凸显出该语料的四大独特特征:多元融合、精细处理、价值对齐和易用高效。

“书生·万卷”1.0这一创新语料库包含了文本、图文和视频三大类别数据集。其中,文本数据涵盖了网页、百科、书籍、专利、教材以及考题等多个来源,总量超过5亿个文档,数据大小超过1TB,涉及科技、文学、媒体、教育、法律等诸多领域。这些数据充分展示了文本的丰富多样性和深度广度。

在图文数据方面,主要来源于公开网页,经过精心处理后形成图文交错的文档,总量超过2200万个,数据大小超过140GB(不包含图片),覆盖新闻事件、人物、自然景观以及社会生活等多个领域。这些图文数据不仅丰富了视觉元素,也增强了数据的可读性和吸引力。

更令人瞩目的是视频数据,这部分内容主要来自中央广播电视总台和上海文广集团,包含了新闻、影视等多种类型的节目影像。总计视频文件数超过1000个,数据大小更是超过900GB,内容涵盖军事、文艺、体育、自然、知识以及影像艺术等各个方面。这些视频数据为多模态预训练提供了宝贵的视觉和听觉信息。

“书生·万卷”1.0的开源发布将为学术界和产业界提供丰富、高质量的多模态预训练语料,推动人工智能领域的发展迈出新的步伐。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by