聚焦通用人工智能发展 重视防范风险
发布日期:2023-07-07 来源:民主与法制时报 作者:周瑞珏 赵精武

ChatGPT火爆出圈后,国内外各行业纷纷探索“AI+”等生成式人工智能产品,比如百度的“文心一言”、腾讯的“混元”AI大模型、华为的“盘古西里AI大模型”、微软新版Bing&Edge。在此背景下,5月30日,北京市人民政府办公厅印发《北京市促进通用人工智能创新发展的若干措施(2023-2025年)》(以下简称《若干措施》),分别从算力、数据要素、技术体系、应用场景创新、监管模式等多个维度探索人工智能产业创新发展方向,进一步发挥人工智能技术在数字市场中的引领和改革作用。

  

  《若干措施》明确数据要素供给能力对人工智能产业发展的核心推动作用,聚焦通用人工智能发展,营造创新生态,重视防范风险。现阶段,国内人工智能产业发展面临的最大障碍是数据资源不充分、不全面。在技术原理层面,生成式人工智能产品的功能迭代依赖质量高、规模大、内容全的数据集合,经由数据清洗、归并、去噪等环节,输入至预设的算法模型,以此不断调整输出端的可靠性与准确性。

  

  当然,实际的技术处理过程远比这复杂得多。但毋庸置疑的是,人工智能产业的全球竞赛在一定程度上也是高质量数据资源的竞争。因此,《若干措施》直指产业创新痛点,贴合国家数据要素市场化配置的战略目标,分别从高质量的训练数据集、国家级数据训练基地以及精细化标注平台三个方面明确提升数据要素供给能力。

  

  人工智能产业需要满足高质量标准的训练数据集。《若干措施》将高质量的基础训练数据集归纳为三类表现形式,即合法性、多元性和效用性。所谓的合法性,是指训练数据集的来源合法、处理方式合法。这是因为在实践中存在部分数据处理者为了加速算法模型迭代升级速度,以非法方式获取包含个人信息的训练数据集或者违法抓取第三方数据,这显然与我国数据安全法所要求的数据处理者收集数据应当以“合法、正当的方式”相悖。同时,《若干措施》多次提及“合规安全”等表述,也是为了贯彻落实数据安全法的立法要求,即“保障数据安全,促进数据开发利用”。所谓的多元性,是指训练数据集应当尽可能来自不同渠道,不同行业、不同领域的数据资源聚合往往可以产生更高的经济效益,也有助于更高效地提升算法模型的迭代升级速度。为此,《若干措施》强调,以有条件的社会数据开放形式兼顾数据来源合法性与数据高质量运用。所谓的效用性,是指训练数据集应当能够直接投入算法模型迭代优化的处理流程,提升数据处理效率。客观而言,以中文语料为主的训练数据集往往需要经过更为烦琐的数据加工处理流程才能投入使用,这并不利于人工智能产业创新速度的提升,故而《若干措施》也提出“清洗中文预训练数据,形成安全合规的开放基础训练数据集”等发展策略。

  

  人工智能产业需要规模化的数据资源优势。《若干措施》提出“加快建设数据基础制度先行先试示范区”有助于打破目前社会数据资源跨行业传输不充分、规模效益难以实现的产业僵局。尽管我国已发布了《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)等文件,但距离真正实现数据要素的高效市场化配置仍有一段路要走。大部分数据持有者为了避免承担数据安全法律责任、巩固自身数据资源市场竞争优势等,普遍缺乏跨行业开发利用数据资源的积极性,这导致行业数据迟迟未能充分发挥潜在的经济价值。此外,以ChatGPT为代表的生成式人工智能产品研发成功离不开规模化数据资源的支持,而这种规模化并不单纯是指简单的数量庞大,还包括种类庞大,即需要整合国家层面的高质量数据进行算法模型训练。加快建设数据基础制度先行先试示范区的现实意义便是尽可能为符合安全标准的企业或科研机构提供单个市场主体无法获取的训练数据集,这恰恰也是“数据二十条”中“建立合规高效、场内外结合的数据要素流通和交易制度”的具体实现路径。值得注意的是,为了解决过去数据交易中心营利模式单一、数据交易单一等局限性,《若干措施》还鼓励开展内容信息服务的互联网平台提供高质量语料数据,供创新主体申请使用。探索基于数据贡献、模型应用的商业化场景合作。

  

  人工智能产业需要精细化标准服务支撑。数据标注是人工智能算法优化的核心业务流程,其原理是通过人为地标注文本、图像、视频、声音等数据的特征,以便让计算机能够理解不同数据的性质、作用与真伪,进而达成自主识别数据的目标。换言之,人工智能产业创新不仅仅是算法模型等技术要素的创新,同时也包括数据标注的质量提升。不同的服务提供者往往采用符合自身业务特征的数据标注体系,但伴随着越来越精确的数据标注需求,仅凭研发企业自身难以有效支撑其业务发展需求,故而《若干措施》有的放矢地提出“精细化标注众包服务平台”。这里的众包服务可以理解为服务提供者把数据标注任务有偿地进行分包,好处是能够由不同行业的工作者对本行业数据设置更精确的标准,有利于降低企业运营的经济成本。更重要的是,精细化的数据标准结果能够提升人工智能输出端的准确性。当然,如果仅仅按照现有的数据标注服务模式远远不足以支撑我国人工智能产业走得更远,而是需要更长久、更直接的经济激励机制确保标注工作者能够勤勉认真地完成高质量的数据标准工作,比如对于贡献者适当奖励显得尤为必要。

  

  《若干措施》切实抓住了人工智能技术创新的三大关键要素,即数据、算力和算法。过去的产业政策中,大多是针对训练数据的规模、类型、内容提出具体要求,此次北京市选择了更具操作性的政策实施方案,细化了训练数据高质量保障、规模化集聚以及数据标注质量提升三个具体目标的实施步骤,这对完善数字时代人工智能产业发展的短板具有重要意义,对于我国抢占人工智能技术国际竞争高地将起到提速增效的重要作用。

  

  (作者单位:北京航空航天大学)


责任编辑:谭则章
本站系非盈利性学术网站,所有文章均为学术研究用途,如有任何权利问题请与我们联系。
^