数据爬取犯罪治理需处理好规范与价值、思路与方法、体系与问题等多对关系,以刑法惩治数据爬取犯罪仅为数据爬取犯罪治理中的一部分。笔者认为,讨论数据爬取其他治理路径前,先要厘清两方面内容:一是数据爬取犯罪的刑事风险类型;二是数据爬取犯罪治理的法理基础。
数据爬取犯罪的刑事风险类型
违反网站Robots协议等合约授权。网站Robots协议等合约授权一般会涉及允许数据爬取的性质、内容与范围,也会明确禁止“爬取”的数据。如,许多企业会在平台网站服务条款、使用说明或权责声明中,将上述内容加以列明,但未使用相应技术措施,如设置网络爬虫身份识别与拦截机制。这种情况下,数据爬取者一旦违反Robots协议等合约授权,就可能面临相应刑事风险。
植入恶意“爬虫”程序或者脚本代码使得存储数据被不当修改或增删。“爬虫”程序或脚本代码的本质是一种自动化复刻工具。使用该工具必须遵守法律底线,如果使用恶意“爬虫”程序或者脚本代码,突破存储数据技术防范措施并造成严重后果的,那么有可能面临相应刑事风险。
不当使用网络爬虫技术,未经许可,故意避开或者破坏他人为其作品设置的技术措施。《中华人民共和国刑法修正案(十一)》实施后,无论是否通过信息网络向公众传播作品,只要数据爬取者不当使用网络爬虫技术,未经著作权人或者与著作权有关的权利人的许可,故意避开或者破坏为著作权(包含邻接权)专门设置的技术措施,都有可能成立侵犯著作权罪。
网络爬虫算法的设计缺陷使得批量获取数据出现重复甚至无效的情形。比如,网络爬虫算法在测试阶段的定位是自动获取真实的数据信息,但在实际运行阶段,由于受到不同因素干扰,其精准度发生偏差,在算法研发者没有及时作出调整时,网络爬虫算法就会抓取许多不真实的数据信息。如此一来,爬取数据信息的数量与真实性会发生变化,会提高数据爬取者面临的刑事风险。
数据爬取犯罪治理的四个维度
建构数据爬取犯罪一体化治理体系。在发展数字经济背景下,需要科学建构数据爬取犯罪一体化治理体系,努力形成法律法规、司法解释、部门规章、规范性文件、政策文件、信息技术标准等规范体系。这些规范可以不同方式预防数据爬取犯罪的刑事风险。如《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《中华人民共和国民法典》《中华人民共和国刑法》《中华人民共和国反不正当竞争法》等法律旨在确立禁止不当数据爬取的总体要求、基本原则与部分细节内容;《互联网信息服务管理办法》等明确了爬取特定内容的信息的违法性;《网络安全审查办法》等部门规章规定了公开收集使用数据的规则,要求爬取数据必须符合公开收集使用数据的目的、规模、方式、范围、类型、期限等。在未来规范完善中,还应当制定反网络爬虫的信息技术标准,合理分配强制性信息技术标准与推荐性信息技术标准,不断凝聚国家标准与地方标准的优势力量,推动建构数据爬取犯罪一体化治理体系。
发挥网络爬虫行为准则的治理效能。互联网企业应当及时发布明确有效的Robots协议,告知数据爬取者哪些页面或者数据可以爬取,哪些不可以爬取。此外,在Robots协议中还需要细化授权范围,以及无权爬取或者超越授权爬取后,网站管理员发出通知的途径与方法。这些内容对法官把握数据爬取引发的刑事风险大小具有重要作用。针对不同场景下的数据爬取,各种Robots协议具有不同强度的约束性:针对部分网页的小型数据爬取,Robots协议的约束强度往往较低;针对较多网站或者数据库的中型数据爬取,当涉及企业商业利益时,Robots协议的约束强度通常较高;针对全网络或者使用搜索引擎的大型数据爬取,Robots协议的约束强度往往最高。通过区分Robots协议约束强度的高低,有助于我们审视数据爬取者在未遵守Robots协议时的可罚性问题。
释放数字市场运行机制的治理效应。数字市场运行机制强调以自身运行规律和相应监管举措来防控数据爬取犯罪的刑事风险。刑法一方面要提升防控数据爬取犯罪的刑事风险之精准性,另一方面又要保持必要限度,为数据合理使用与充分共享留下特定空间。为此,如果数字市场运行机制以及强有力的监管举措已能有效防控数据爬取犯罪的刑事风险,那么刑法宜保持必要克制,不主动惩治特定数据爬取情形。
提升代码和算法对数据爬取犯罪的治理功效。借助入网访问控制、网络权限控制、目录级控制与属性控制等各种技术手段,不断改进网站访问控制技术,这些访问控制技术虽然在信息技术原理上有所差别,但共性是都以代码为核心。针对网络爬虫伪装为其他爬虫或者浏览器去大量爬取网站内容,我们应当优化被爬取网站监测的算法设计,即在算法模型中加强对网络爬虫的身份识别设计,通过嵌入具有敏捷性的身份识别机制,提示网站管理员网络爬虫的真实身份,及时发现并追踪数据爬取的后续过程。提升以代码为核心的访问控制技术和以算法为基础的身份识别机制,有助于从技术层面有效防控数据爬取犯罪的刑事风险。
(作者:□李谦 作者单位:南京师范大学中国法治现代化研究院)