大模型“百花齐放” 业界合力“充实”中文语料数据


(资料图片仅供参考)

中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立,致力建设开放型的大模型语料数据生态圈。

上海人工智能实验室主任助理王延峰说,ChatGPT令人惊艳,但它对中文的理解还不尽人意。

9月8日,中国大模型语料数据联盟在上海又吸纳了一批新成员。中新网记者 郑莹莹 摄

大模型时代带来以数据为中心的人工智能领域新发展,但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示,语料数据不仅要量大,而且要高质量,“就像培养一个孩子一样,投入高质量的教育,才有高质量的‘输出’。”

对于中文语料数据的不足,他表示,中文语料数据对于大模型能力的提升至关重要,业界需要高质量的中文语料数据集。

上海蜜度信息技术有限公司(简称:蜜度)首席技术官刘益东在受访时指出,目前中国国内的大模型训练里,非常缺少高质量的中文语料数据集,“现在很多市面上的大模型主要是基于外文资料,再加上少量的中文资料,这样训练出来的大模型,对中文的理解能力以及对中文内容的生成能力是有欠缺的。”

蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场,蜜度发布了包含7000多万条数据的开源中文语料数据集。

刘益东说,在大模型“百花齐放”的发展背景下,需要有一些机构或团体去做“公共建设”,去推动这个行业的发展,企业乐于加入其中。

上海市经济和信息化委员会人工智能发展处处长王志佳表示,“百模大战”不是一场零和游戏,携手并进才能把生成式人工智能真正与生产力相结合,把大模型这个“冷灶”真正“烧热”起来。

他指出,建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。(完)

关键词:

为您推荐

大模型“百花齐放” 业界合力“充实”中文语料数据

中国大模型语料数据联盟8日又吸纳了一批新成员,来充实适用于大模型的

来源:中国新闻网2023-09-08

乘客突发心脏病 西安公交驾驶员火速伸援手

9月7日上午,西安市民王女士的女儿带着一面印有“公交平安解危司机敬业

来源:腾讯网2023-09-08

电视广播(00511)完成发行1.56亿港元的可换股债券

电视广播(00511)公布,认购事项的所有先决条件已达成,并已于2023年9月6日

来源:智通财经2023-09-08

荥阳市住建局组织召开建筑业发展和统计工作会

河南经济报记者张振河通讯员张建博王‬耀珂‬为认真做好第三季度建筑业

来源:中原经济网2023-09-08

四川省绵阳市新时代“枫桥经验”创新示范单位揭牌

中国质量新闻网讯(黄博)9月4日上午,四川省绵阳市科技城新区市场监管

来源:中国质量新闻网2023-09-08

欢乐颂樊胜美最后跟谁了 欢乐颂樊胜美和谁在一起了

1、《欢乐颂》小说结局显示,最后樊姐接受了曹律师的爱意(电视剧里没

来源:城市网2023-09-08

梅西累坏了!44天连踢12场保持不败,国家队9年首次提前退场

梅西累坏了!44天连踢12场保持不败,国家队9年首次提前退场,马蒂诺,里

来源:奥拜尔2023-09-08

2023年德州职工医保住院分段报销比例表 2023年德州职工医保住院待遇怎么样?

2023年德州职工医保住院待遇怎么样,随着社保网小编一起看看。报销比例

来源:律法网2023-09-08