剑指中文数据瓶颈:开放算料联盟成立,践行三分模式

栏目:协会动态 发布时间:2023-07-25

7月25日,由广东省工业和信息化厅、深圳市人民政府作指导,深圳市龙华区人民政府、深圳市工业和信息化局、国家工业信息安全发展研究中心、华为云计算技术有限公司主办的“2023数字经济与实体经济深度融合全国行·深圳站”在深圳龙华举办。会上,深圳数据交易所、深圳市华傲数据技术有限公司、深圳市人工智能学会、深圳市现代服务外包产业促进会、深圳市管理咨询行业协会及深圳市龙华数据有限公司等全国50家单位作为发起单位共同成立了“开放算料联盟”!

image.png

去年12月,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)的发布,为数据要素在数字经济中更好发挥作用提供了政策和制度保障。今年以来,以大模型、多模态、生成式为特征的新一轮人工智能浪潮席卷全球,在AI“三驾马车”中,算法和模型是人工智能的关键技术,算力是训练和推理的基础设施,数据是关键生产要素和生产资料,也可以说是AI的算料,算法算力和算料三者层层递进,协同发展。只有做好三算要素和应用场景,才能促成人工智能产业的蓬勃生态。算法(algorithm)、算力(computing power)、算料(data)、应用场景(business scene)已经成为人工智能产业链上的关键链条——ABCD“三算一景”。

作为计算材料和训练材料的数据要素,不仅是数字经济的生产资料,而且正在成为AI大模型的胜负手。只有持续提供高质量训练数据,打破人工智能多模态算料数据瓶颈,才能让中国的人工智能产业和数字经济发展不落人后。

有统计表明,到2026年人类社会用于大模型训练的自然生成的文本数据将会被用光,AI产业将会面临数据荒的瓶颈。如果说全球的数据荒正在临近,高质量中文训练数据则更加奇缺。此前高文院士在演讲中提到,全球通用的50亿大模型数据训练集里,中文语料的占比仅为1.3%。

解决数据瓶颈问题迫在眉睫。正是因为看到了数据要素,也就是AI算料,对人工智能乃至数字经济的重要作用,在深圳及大湾区的一批协会、学会、大学、智库和企业中的有识之士,紧跟人工智能技术发展,从4月份开始提出了构建多模态训练数据和中文训练数据共同体的构想,这个构想在25日变成了现实。开放算料联盟的成立,是发起单位释放数据要素价值、培育生成式人工智能产业、助推数字经济高质量发展路上的一个筑基之举。

作为业内先驱倡导者,开放算料联盟集结了来自协会、学会、大学、智库、企业等方面的近50家发起机构,在数据要素和大模型训练数据方面凝聚开放共识,共同倡导、整理、贡献自然语言、图像视频、语音音乐、程序代码、生物信息、合成数据等多模态训练数据,为解决人工智能和数字经济的数据荒问题,特别是解决多模态数据荒、中文数据荒、中国文化、中国价值观数据荒等问题提供强有力供给保障。

image.png

深圳数据交易所董事长李红光于会上表示,数字经济和实体经济融合发展是我国经济高质量发展的必由之路,深圳数据交易所将构建全面的数据资源治理体系,持续汇聚高质量、特色化数据资源,建立以场景驱动、高效低成本的数字化赋能机制,深度赋能深圳人工智能产业高水平应用。

近日,由北京智谱华章科技有限公司为组长单位,联合深圳数据交易所、百度智能云、科大讯飞等11家机构共同发起成立“开放群岛开源社区大模型SIG”旨在通过开源、共建的生产协作方式,以大模型为中间件,实现数据要素和算力资源的高效配置,解决行业数据在垂直应用中的关键问题。

image.png

联合发起单位华傲数据董事长贾西贝认为,目前芯片行业已经被证实了要走“三分协作”的模式,即分段创新、分域竞争、分工协作,未来AI领域也将走向这样的模式,大家可以通过分段创新、分域竞争的方式加入到AI浪潮中。开放算料联盟的成立正是发起机构在分段创新、分域竞争方面的身体力行,致力于聚焦解决人工智能产业的三算要素中的算料数据瓶颈,通过促进高质量训练数据的供给,为产业链上的企业提供一片肥沃的“数据黑土地”,使得企业可以站在别人的肩膀上,最终以叠罗汉的方式诞生一个巨人。在开放算料联盟的示范作用下,希望促进大数据和人工智能产业形成分段创新、分域竞争、分工协作的三分模式,产业链上下游机构共同努力催生一个全球顶级的由专精特新企业组成的大数据和人工智能产业链体系。

image.png

察势者智,驭势者赢。

接下来,开放算料联盟将紧紧围绕高质量中文训练数据和多模态训练数据,联合成员中的数据标准相关机构,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关团体标准及其他标准的制定,协助数据交易所增加大模型技术相关的新品类和新专区,探索起草“多模态算料数据”分类体系,逐类完善“多模态算料数据集”等,加强联盟成员之间的密切合作,不断扩大联盟队伍,推动高质量数据要素在大模型时代活起来、动起来、跑起来、用起来,为数智时代注入澎湃动力

附:开放算料联盟共同发起机构(排名不分先后)

诚挚欢迎各界有识之士加入开放算料联盟,为高质量训练数据贡献力量,以强大的算料供给共谋中国人工智能产业和数字经济的蓬勃发展!

1.协会或学会成员:

深圳市人工智能学会

深圳市现代服务外包产业促进会

深圳市大数据研究与应用协会

深圳市人工智能行业协会

深圳市人工智能产业协会

深圳市管理咨询行业协会

深圳市标准化协会

深圳市科技工作者联合会

深圳市信息行业协会

深圳市软件行业协会

深圳市创业创新联合会

2.大学成员:

北京大学深圳研究生院

哈尔滨工业大学(深圳)

大连理工大学

香港理工大学

澳门大学

深圳职业技术大学

深圳信息职业技术学院

香港中文大学(深圳)未来智联网络研究院

华南师范大学法学院数字政府与数字经济法治研究中心

深圳大学创新发展法治研究院

3.智库及其他研究机构成员:

国家超级计算深圳中心

中国(深圳)综合开发研究院数字战略与经济研究所

深圳市龙华区发展研究院

深圳市南山科技事务所

中国(深圳)科技创新战略研究院碳经济战略研究所

深圳市汉仑绿色发展研究院

4.企业成员:

深圳数据交易所

深圳市华傲数据技术有限公司

深圳市龙华数据有限公司

腾讯云计算(北京)有限责任公司

深圳华大基因股份有限公司

深圳云天励飞技术股份有限公司

奥比中光科技集团股份有限公司

深圳市优必选科技股份有限公司

深圳报业集团

深圳市智慧城市规划设计研究院有限公司

中电科新型智慧城市研究院有限公司

中国联合网络通信有限公司广东省分公司

中国电信集团有限公司云网运营部(大数据和AI中心)

广东省电信规划设计院有限公司

深圳兔展智能科技有限责任公司

深圳因诺免疫有限公司

福瑞莱环保科技(深圳)股份有限公司

搏实资本控股集团有限公司

深圳市弘博创新管理咨询有限公司

深圳市英特科互联网有限公司

中电(浙江)数据产业有限公司

北京海天瑞声科技股份有限公司

北京晴数智慧科技有限公司