发布日期:2026-01-09 18:22 浏览次数:次
MK,MK体育,MK体育官网,MK体育app,MK体育网页版,MK电竞,MK棋牌,MK百家乐,MK真人,MK百家乐,MK体育注册,MK平台注册,MK中国,MK体育中国,MK体育网页版,MK体育官方网站,mk官方网站,mk sports,mk体育平台app
数字时代,以大语言模型为代表的生成式人工智能的开发与应用,使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间中文的活力与影响力是重要的语情与国情。本文以数字空间语言使用占比为核心,建立涵盖经济、科技、文化、社会、教育5个垂直领域的指标体系,加上数字中文基础指标,通过采集、分析有关数据,与英文、法文、西班牙文、俄文、阿拉伯文等世界主要语言使用情况进行比较,对数字空间中文的活力与影响力进行初步考察与评估。考察发现:在数字化浪潮推动下,中文已突破地域界限,从区域性语言发展为世界性语言;数字空间中文的活力与影响力稳居世界第二;动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点;数字文化典籍保护和数字中文应用,是数字中文发展的两大亮点。
数字时代,以大语言模型为代表的生成式人工智能的开发与应用使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间是基于通信网络、大数据、云计算、物联网等数字技术,将现实物理空间的实体信息虚拟化、符号化,并逐渐以数字化形式再现于本地数据库或云端数据库中,形成的一个能够映射现实物理空间物质属性和社会属性的虚拟空间,以网络空间的流动数据为基础,同时还有大量可数字化、非联网数据(李芳,程如烟2020)。谁掌握数字空间的话语权,谁就在未来的发展中占有更大的主动权,产生更大的影响力。百年未有之大变局背景下,世界语言和文明发展与竞争的格局正在发生深刻的变化。数字空间打破了传统语言使用的空间边界,网络的互联互通一定程度上正在消弭作为殖民主义遗产的强势语言因殖民扩张而形成的在地域空间上的霸权地位。尽管强势语言在不少内容领域仍然占据着明显优势,但以“使用为王”“内容为王”为特征的数字空间却为像中国这样的发展中大国和中文这样在国际传播中处于相对边缘地位的语言(尽管中文是世界上使用人口最多的语言,但其使用者多局限于中国国内)提供了重新洗牌的机会。2025年1月,《教育部国家语委中央网信办关于加强数字中文建设、推进语言文字信息化发展的意见》(以下简称《意见》)发布,强调加强数字中文建设,着力提升语言文字服务数字教育、数字科技、数字文化、数字经济、数字社会建设的实际能力。[2]中文在数字空间的使用情况成为最重要的语情、国情之一。刘培俊(2025)从本体性技术和功能性特征上明确了“数字中文”概念的内涵,指出数字中文建设应着眼于“以信息化、数字化、智慧化方式全方位释放中文全要素价值”,“要推进中文数字化与数据中文化‘两化并进’”。本文聚焦“数据中文化”,即中文在全球数字空间中的数据化使用与影响力,系统采集中文使用占比数据,考察其活力及影响力,科学评估其优势与短板,精准把握语言文字服务数字中国建设的基本国情,从而提升语言文字对国家语言能力和中国式现代化的战略支撑力。
“语言活力”的概念源于民族语言研究,最初是针对语言濒危问题而产生的。2003年,联合国教科文组织发布了一套全面评估语言活力的框架,该框架包含9项指标,涉及语言使用人数、代际传承、语言政策和语言态度等。[3]随着数字时代的到来,研究者们开始关注数字空间中的语言活力。目前,国内外机构已展开了一些研究。根据W3Techs网络技术调查网站对全球网站内容使用语言的统计,截至2025年8月,中文网页占比仅为1.1%,远低于英文的49.4%和西班牙文的6.0%,位列第十三。[4]根据阿里研究院2024年5月发布的《大模型训练数据白皮书》,全球网站中,英文占比高达59.8%,而中文仅占1.3%。[5]需要说明的是,上述统计的数据来源主要是互联网上的静态网页数据,没有将大量更为活跃的动态数据包括在内,并不能全面反映数字空间中文的活力和影响力。
在人工智能大语言模型领域,根据OpenAI早期公开数据,在GPT-3训练数据集的语言占比中,英文高达92.65%,其次为法文1.81%,德文1.47%,其他语种均在1%以下,中文语料只占总训练量的0.1%。[6]《科技日报》2024年1月报道,中国工程院院士高文曾公开表示,全球通用的50亿大语言模型数据训练集里,中文语料占比仅为1.3%。[7]凤凰网科技频道2023年6月就“ChatGPT英文比中文表现更好”这一话题采访北京智源人工智能研究院院长黄铁军,他表示是因为“英文数据多,中文数据少”,“他们用的中文数据只有百分之几”。[8]不过这是两年前的情况。根据国家数据局2025年8月的数据,国内多数模型训练使用的中文数据占比已经超过60%,有的模型甚至达到80%。[9]中文高质量数据的开发和供给能力持续增强,推动中国人工智能模型性能快速提升。
近年来,世界主要语言的调查报告越来越多地关注数字空间的语言活力与影响力。在法语方面,《全球法语现状(2022)》重点调查了法语在数字网络世界中的影响力。报告从“网民、流量、使用、指数、内容、界面”6个维度构建模型,来评估语言互联网地位及排名。其中,法语排名第四,在互联网空间的存在率为3.5%;前三名分别为英语、中文、西班牙语,存在率分别为25%、15%、7%。此外,该报告还提出“语言网络化全球程度”,法语为1.09,仅次于英语的1.61;中文为0.25,位列第九。[10]在俄语方面,俄罗斯国立普希金俄语学院2020年首次发布《全球俄语发展指数报告》,以呈现全球俄语竞争力指数与俄语稳定指数等数据。全球语言竞争力指数的设计除包括语言使用人数等传统指标外,还加入大量信息时代特有的指标,包括国际数据库学术论文数量、语言媒体数量、互联网用户数量及网站数量等互联网空间的语言传播数据。在这一排名中,俄语的竞争力指数为2.78,位列第五;中文的竞争力指数为3.45,位列第四。[11]除此之外,德语、西班牙语的语言调查报告也关注到了在线语言学习、人工智能等数字空间相关领域。
纵观国内外相关研究和世界其他主要语言的研究实践,当前语言活力与影响力评估体系呈现出从传统线下应用场景向数字空间加速拓展的趋势,但仍有很多不足。从评价角度来看,现有其他语种的评价指标多样,中文排名不一;选取的评估指标数量较少,对内容垂直领域关注不足,覆盖领域较为有限,评估指标的全面性和代表性都有待加强。数据采集方面,多集中于静态网页,忽视静态和动态内容的结合,且对中国境内数据的关注较为缺乏,因此存在一定局限性。要对数字空间中文活力与影响力做出评估,必须建立一套能够全面反映全球数字网络公共空间中文使用情况,精准体现数字空间经济、社会、科技、文化等各领域中文影响力的评估体系。具体来说,需要处理好以下3点。
第二,要平衡静态数据与动态数据的关系。互联网公共空间存在两种不同类型的数据——静态数据与动态数据。静态数据是以组织机构官网、产品手册、个人博客文章等为代表的,内容固定不变、预先创建好的文件;而动态数据则是以社交媒体、电商网站、搜索引擎等为代表内容,可因人、因时、因输入而异,根据用户请求实时生成或变动的数据。相对来说,静态数据具有确定性,容易获得,动态数据具有不确定性,也不易获得;静态数据数量较少,但质量较高,动态数据数量巨大,但质量不稳定。现有评估体系大多使用静态数据,但考虑到移动互联网迅速发展背景下动态数据的持续增加,再加上大语言模型未来发展对动态训练语料的需求,我们在构建评估体系时专门设置了数字中文基础指标,不仅通过域名数量和网站语言占比等数据反映静态数据(静态呈现的内容),还通过网民(静态内容与动态内容的生产者与传播者)数量、移动数据量(主要是动态数据)等数据兼顾对动态数据的考察。
大语言模型训练语料是影响大语言模型性能的重要因素。机器学习模型的性能受规模的影响最大,而规模又包括模型大小、数据集大小和用于训练的计算量(Kaplan et al. 2020)等指标。鉴于目前不少大语言模型不再公开其预训练语料数据,我们在hugging face[23]官网的大语言模型下载量排行榜中选取前30个开源大语言模型(同系列的保留下载量最多的一个),据其公开数据依次标注预训练语料占比,再以每个模型下载量占30个模型总下载量的比例为权重,按照“语料总占比=∑(语料占比i ×权重i)”公式计算加权总占比,得到30个开源大语言模型的语料占比情况。其中,中文占比35.12%,仅次于英文(见表11)。
第二,动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点。这既是数字中文发展的短板,也是潜在的优势。静态数据因其稳定可靠一般被视作高质量数据,而中文在这方面,尤其是代表知识创新前沿的国际学术论文平台数据,与英文相比还存在很大的差距。要改变这一局面,一方面有赖于中国科技不断进步,产生更多原创于中国并用中文发表的科技成果;另一方面也应通过国际间的多语服务,推动中文优秀期刊进入国际学术资源库,推动国际期刊接受中文发表的论文。动态数据尽管质量不够确定,但也同样是重要的数字资源。目前人工智能的预训练语料多是静态数据,但未来为适应更丰富的语境、更多样的人类互动场景,满足更灵活功能需求的人工智能应用,还需要更多高质量动态数据的支持。中国应发挥在语料库建设方面的优势,率先开展针对数字空间的中文动态数据语料库建设,为未来发展提前布局。