统考真题AI合成主播
AI合成主播概述
AI合成主播是指通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音合成、唇形合成、表情合成以及学习等技术联合建模训练而成的虚拟形象。2018年11月7日,在第五届世界互联网大会上,搜狗与新华社联合发布了全球首个全仿真智能AI主持人,标志着这一技术的正式诞生。
AI合成主播的核心技术包括人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练。这种技术能够将输入的中英文文本自动生成相应内容的视频,并确保视频中音频和表情、唇动保持自然一致,展现与真人主播无异的信息传达效果。
技术实现原理
AI合成主播的技术实现主要依赖于两大核心引擎:语音合成引擎和图像生成引擎。在语音合成引擎中,基于用户少量音频数据,使用个性化语音合成技术,快速学习用户音色、韵律、情感等多维度特征,建立输入文本与输出音频信息的关联。而在图像生成引擎中,则使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模,建立输入文本、输出音频与输出视觉信息的关联映射,生成输出分身视频。
具体到"新小微"这样的3D AI合成主播,其高清效果的实现过程是:首先基于真人原型采集海量数据,通过数百个摄像头对原型身体各部位进行360度全方位扫描,采集每一处细节信息,并对其多种形态的表情和动作进行细致入微的捕捉记录;然后生成高逼真度的3D数字人模型,采用行业领先的扫描还原算法及面部肌肉驱动、表情肢体捕捉等技术;最后通过端到端多模态生成算法对3D数字人模型进行实时文本驱动。
语音AI合成技术的具体实现步骤包括:1)文本分析,将输入的文本分析为语音合成引擎可识别的单元;2)声学建模,使用学习技术构建将文本映射到音频特征的模型;3)声学合成,利用声学模型对每个音素进行合成,再拼接成完整音频。对于数百位主播的语音AI合成,通常需要使用大量训练数据和计算资源构建高质量的声学模型,并针对不同主播声音进行个性化建模。
发展历程与典型代表
AI合成主播自2018年问世以来经历了快速迭代升级:
其他代表性案例包括:
1. 央视财经新媒体在蚂蚁灵境数字人平台支持下,以主持人孟湛东、郭若天为原型打造的AI主播"小东"、"小天",在2024年全国两会期间实现全天实时解答用户问题。
2. 日照广播电视台以女主持人王智夏为原型推出的数字主持人"智夏"。
3. 央视《2024中国·AI盛典》节目中,以尼格买提、马凡舒、王冰冰为原型的AI数字人"小小尼"、"小凡"、"冰冰"。
4. 科大讯飞技术支持的多位AI合成主播,如报道天津大学半导体石墨烯研究成果的合成主播,以及报道马铃薯育种突破的AI主播。
优势与应用价值
AI合成主播在新闻传播领域展现出多重优势:
1. 效率与成本优势
2. 传播能力扩展
3. 创新应用场景
局限性及挑战
尽管AI合成主播发展迅速,但仍存在一些明显局限:
1. 技术层面不足
2. 行业影响与问题
3. 社会接受度挑战
未来发展趋势
AI合成主播技术正朝着以下几个方向演进:
1. 技术升级方向
2. 应用场景拓展
3. 行业融合创新
对传媒行业的影响
AI合成主播的兴起对传媒行业产生了深远影响,这种影响可以从"创造性破坏"理论来理解——新技术起初被主流忽视,后迅速崛起并推动行业变革。在播音主持领域,AI技术带来了生产模式、传播方式、内容创新等多方面的变革。
1. 内容生产层面
2. 传播模式层面
3. 行业结构层面
正如传播学者所指出的,"数智人"的出现并非要完全替代具身的播音主持,但势必会对行业的从业结构带来新的挑战。未来,以人的需求为"镜"突破媒介革命,并以"数智人"为"鉴"寻找播音主持从业者的主体性价值,才是行业进步的关键所在。