赋能内容创作的AIGC技术将如何演进_天天快看

2023-02-23 18:01:17     来源:联想控股股份有限公司

编者按:

近日,OpenAI公司推出的人工智能聊天机器人模型ChatGPT爆火出圈,其使用大量训练数据模拟人类语言行为,通过语义分析生成文本,从而与用户进行逼真自然的交互,甚至可以写诗、写脚本、写论文、写代码……


(相关资料图)

ChatGPT的“走红”还将人工智能内容自动生成技术(AIGC)推上“热搜”。那么,什么是AIGC?以ChatGPT为代表的AIGC技术,背后需要哪些技术体系支撑?对此,我们推出AIGC系列解读文章,试图回答以上问题,并推荐相关书单供您进一步延展阅读。以下为本系列策划的第二篇文章。

AIGC,即人工智能自动生成内容,被认为是继UGC(用户生产内容)、PGC(专业生产内容)之后的新型内容生产方式,如AI绘画、AI写作。近年来,随着技术能力的不断迭代升级,AIGC正在降低内容创作门槛、释放创作能力,未来将推动数实融合趋势下内容创作的范式转变。

日前,中国信息通信研究院发布《人工智能生成内容(AIGC)白皮书》,系统深入地探讨了AIGC能力体系的构成(即赋能内容创作的技术路径),这对制定领域内标准、建立行业生态、争取更加广泛的开发者和应用场景具有十分重要的意义。以下,enjoy:

AIGC技术升级步入深化阶段

人工智能算法的不断迭代是AIGC发展进步的源动力,从技术演进的角度看,AIGC技术可划分为传统基于模板或规则的前深度学习阶段和深度神经网络快速发展的深度学习阶段。

前深度学习阶段:早期的AIGC技术主要依据事先指定的模板或者规则,进行简单的内容制作与输出,缺乏对客观世界的深入感知和对人类语言文字等知识的认知能力,生成的内容存在空洞、刻板、文不对题等问题。

深度学习阶段:深度神经网络在学习范式和网络结构上的不断迭代极大地提升了人工智能算法的学习能力,从而推动了AIGC技术的快速发展。如:2012年,卷积神经网络AlexNet凭借优秀的学习能力,在当年的ImageNet大规模视觉识别挑战赛中一举夺魁,开启了深度学习时代的序幕;2014年,博弈学习范式的提出,极大地提升了生成内容的真实性和清晰度;此外,还有强化学习、流模型、扩散模型等学习范式也均取得了喜人的进展。

对于未来,AIGC要真正发挥对不同行业的驱动作用,还需要与各行各业的特异性场景深度融合。

AIGC大模型架构潜力凸显

近年来,超级深度学习的快速发展带来了深度神经网络技术在大模型和多模态两个方向上的不断突破,并为AIGC技术能力的升级提供了强力的支撑和全新的可能性。

视觉大模型提升AIGC感知能力。以图像、视频为代表的视觉数据是互联网时代信息的主要载体之一,而感知并理解这些海量的视觉数据的能力,是实现人工智能生成数字内容、实现数字孪生的基础。然而,以视觉Transformer(ViT,一种神经网络模型)为代表的新型神经网络,因其优异的性能、模型的易扩展性、计算的高并行性,正在成为视觉领域的基础网络架构。基于视觉Transformer完成多种感知任务的联合学习是目前的研究热点。

语言大模型增强AIGC认知能力。作为人类文明的重要记录方式,语言和文字记录了人类社会的历史变迁、科学技术和知识文化等。利用人工智能技术对海量语言、文本数据进行信息挖掘和内容理解是AIGC技术的关键一环。然而,在如今信息复杂的场景中,数据质量参差不齐、任务种类多,使得传统自然语言处理技术存在模型设计部署困难、数据难以复用等不足。对此,基于语言的大模型技术可以充分利用海量无标注文本进行预训练,从而赋予文本大模型在小数据集、零数据集场景下的理解和生成能力。

技术的进步离不开业内企业的积极参与。目前,国内一些优秀企业在产业应用模式探索上走在世界前列,具备了很好的技术基础、场景基础和数据基础。

以君联资本所投企业科大讯飞(002230)为例。依托科大讯飞和中国科学技术大学承建的认知智能全国重点实验室,聚焦面向“幸福中国”实现基于人工智能的教育/医疗优质资源普惠供给的需求、面向“中国智造”升级手机/汽车/家电/办公/机器人等人机智能交互的需求、面向全世界主要语种构建跨语言沟通无障碍的经济文化交流环境的需求,科大讯飞取得了一系列领先的技术研究成果,并在产业端实现了大规模应用。

在智慧教育领域,科大讯飞实现了全学科智能批改和因材施教等方面的关键技术突破,2022年累计获得常识阅读理解挑战赛OpenBookQA、QASC、ReClor等13项认知智能国际竞赛冠军,在高考作文评分和雅思英语作文上都已经超过了人工,实现了全场景因材施教解决方案服务5万多所学校、1.3亿多师生;在智慧医疗领域研发的“智医助理”系统,已经通过了国家执业医师资格考试综合笔试测试,现在作为全科医生助手已可以诊断1200多种常见病,累计提供5.5亿次AI辅诊建议;在人机交互领域,实现了智能语音开放平台AI服务日调用次数超过50亿。在多语种技术研究方面,实现了60个语种的语音识别、语音合成、机器翻译、图文识别等关键技术研发,在中、英等十多个全球应用最主流语种中实现领跑,有力支撑了汽车、家电企业上亿台套出口产品所需的技术需求,其中机器翻译技术获得国际口语机器翻译评测比赛冠军,参加全国翻译专业资格(水平)测试,达到英语二级《口译实务(交替传译类)》和三级《口译实务》合格标准。

多模态大模型升级AIGC内容创作能力。由于(视觉/语言)单一模态的内容,会限制AIGC的应用场景,不足以推动内容生产方式的革新。多模态大模型的出现,则让融合性创新成为可能,极大丰富了AIGC技术可应用的广度。从某种程度而言,基于多模态大模型的AIGC是人工智能算法迈向通用人工智能的重要一步。

具体而言,多模态大模型拥有两种能力,一个是寻找到不同模态数据之间的对应关系,例如将一段文本和与之对应的图片联系起来;另一个是实现不同模态数据间的相互转化与生成,比如根据一张图片生成对应的语言描述。

AIGC技术演化出三大前沿能力

AIGC技术被广泛应用于音频、文本、视觉等不同模态数据,并构成了丰富多样的技术应用。在前沿技术驱动下,AIGC赋能内容创作的三大能力分别是智能数字内容孪生能力,智能数字内容编辑能力和智能数字内容创作能力。

● 智能数字内容孪生:相比于传统的内容数字化,其可以进一步挖掘数据中的有效信息,在深入理解数据内容的基础上,实现一系列高效、准确、智能的数字内容孪生任务,可大致分为智能增强技术和智能转译技术两个主要分支。

● 智能数字内容编辑:在数字内容孪生技术的基础上,智能数字内容编辑主要通过数字内容的语义理解和属性控制两类技术来实现对数字内容的修改和控制,构建虚拟数字世界与现实物理世界间的交互通道,例如数字人技术。

● 智能数字内容创作:上述的数字内容的孪生和编辑能力主要面向客观世界中的真实内容,通过对现实内容的智能孪生、理解、控制和编辑,AIGC算法可以快速准确地将现实世界的内容映射到虚拟世界中,并通过控制仿真等方法,对现实世界产生正向的反馈和帮助。按照技术的发展进程和实际应用的形态,数字内容的创作能力可划分为基于模仿的创作和基于概念的创作两类。

未来,随着AIGC核心技术的持续发展和不断迭代,其内容孪生、内容编辑、内容创作三大基础能力将显著增强,届时将从目前“以辅助内容生成为主”向“以自主内容生成为主”跃进,极大满足未来消费者对内容数量及质量的双重刚性需求。

标签: 人工智能 神经网络 科大讯飞

包装