《信息安全技术 个人信息去标识化效果分级评估规范》对去标识化效果如何分级、如何评估去标识化效果等进行了明确,不仅在保护个人信息安全前提下促进数据共享使用,也意味着去标识化效果评估将有国家标准。
近年来,随着对个人信息保护的重视,信息数据企业为了合理利用个人信息,通常会采用去标识化技术手段将个人信息处理成普通数据,用于大数据分析和商业应用。如将身份证号码或手机号码部分数字打码,以“*”号代替,就是一种常见的去标识化方式。
将个人信息进行去标识化处理,有利于在保护个人信息安全的前提下推动数据流通使用。但个人信息去标识化效果的判断标准是什么?如何评估重标识风险?个人信息去标识化到什么程度才能既符合隐私保护要求,又能实现其商业价值?近日,全国信息安全标准化技术委员会公布国家标准《信息安全技术 个人信息去标识化效果分级评估规范》(以下简称《评估规范》)征求意见稿并向社会征求意见。《评估规范》旨在重点解决去标识化效果如何分级、如何度量重标识风险、如何评估去标识化效果等问题。
为个人信息去标识化操作提供指引
由国家标准化管理委员会等部门发布的《信息安全技术 个人信息安全规范》(以下简称为《安全规范》)确立了去标识化概念,要求个人信息控制者对个人信息去标识化,以降低个人信息安全风险。
2020年3月1日正式实施的国家标准《信息安全技术 个人信息去标识化指南》(以下简称《指南》)沿用了《安全规范》中确定的去标识化定义,并对如何开展去标识化活动给出指导,为《安全规范》形成配套支撑。
《中华人民共和国个人信息保护法(草案)(二次审议稿)》第五十一条对个人信息去标识化提出要求,第七十二条对去标识化的概念进行了界定。但如何评价去标识化的效果,目前并没有统一规定。《评估规范》的出台将解决上述问题,也意味着去标识化效果评估将有国家标准。
《评估规范》提出了个人信息标识度分级和评定方法,旨在依据个人信息标识个人身份的程度,进行个人信息去标识化效果分级。这不仅能够评价个人信息去标识化的效果,使得在保护个人信息安全的前提下促进数据共享使用,也可以细化不同分级下个人信息的安全保护措施。
中国信息通信研究院互联网法律研究中心研究员杨婕说,《评估规范》提出的个人信息标识度分级和评定方法是进行数据分级分类的重要环节。一方面,个人信息标识度分级是保护个人信息的有效途径。对个人信息的处理,强调“知情同意”并不能够降低风险,只是将风险进行了转移,通过去标识化分级,能够对个人信息处理进行精细化把控。另一方面,个人信息标识度分级是释放数据价值的关键举措,结合业务目标和个人信息特性,选择合适的去标识化技术,能够确保去标识化的个人信息尽量满足预期目的,实现个人信息的有用性。
宁波大学法学院讲师、浙江省法学会网络法治研究会理事金耀认为,《评估规范》细化了去标识化的具体方法和评估标准,为企业进行个人信息去标识化操作提供更好的指引,将促使更多企业采用去标识化技术实现数据合规管理。
人脸信息或纳入直接标识符管理
标识符根据能否单独识别个人信息主体分为直接标识符和准标识符。
根据《指南》的规定,直接标识符可以在特定环境下单独识别个人信息主体。姓名、身份证号码、护照号等就是直接标识符。而准标识符需要结合其他属性才能识别到具体个人,比如性别、出生日期或年龄、职业、婚姻状况等。
列举出常见的直接标识符、准标识符,是《评估规范》要解决的问题之一。虽然《指南》也进行了列举,但两者有差异。记者注意到,比较大的变化是,《评估规范》的直接标识符中新增了“全脸图片图像和其他任何可比对的图像”。
上海交通大学数据法律研究中心执行主任何渊认为,将人脸信息纳入直接标识符,与人脸识别造成的隐私泄露有关。《评估规范》将人脸信息列为直接标识符,是监管部门对人脸识别进行监管的重要一环,可以规范企业对人脸识别技术的使用。
金耀分析称,“全脸图片图像和其他任何可比对的图像”具有单独识别或关联个人主体的可能性,将其纳入直接标识符,使将来通过去标识化技术保护人脸识别信息成为可能。
去标识化效果分为四个级别
为去标识化的个人信息进行分级,进而实现对去标识化效果的评估,是《评估规范》重点解决的问题。根据《评估规范》确定的分级标准,按照重标识风险程度的不同,个人信息标识度被分为1~4级,级别越高,重标识风险越低,即1级数据的重标识风险最高,4级数据重标识风险最低。
按照上述分级,包含直接标识符的数据是1级数据,删除直接标识符但包含准标识符的数据是2级数据,消除了直接标识符且重标识风险低于阈值的数据是3级数据。对数据进行汇总分析得出的聚合数据,如最大值、最小值、平均值等数据是4级数据。
4级数据是重标识风险最低的信息。这是否意味着所有去标识化信息都要达到4级数据的标准?受访专家并不这么认为。
杨婕说,分级是为了保护,更是为了更好地利用。不同级别的数据在开发利用数据价值中能够发挥不同作用。如果全部要求达到4级,那么很多数据的价值就会流失。
金耀认为,4级数据类似于匿名化信息,数据价值有限,并非当前数据产业主要利用对象,并不是所有的去标识化信息都要实现4级数据标准。
哪一级数据最有利用价值?金耀认为,从数据价值看,1级数据价值最高,但风险最高,需要经过技术处理才能使用,因此最有利用价值的是2级数据和3级数据。金耀建议,在2级数据和3级数据使用上,进行区分,如使3级数据不适用“知情-同意”机制即可直接使用,这样可以降低企业合规成本,也能更好地促进数据利用。
何渊认为,从立法角度看,3级数据和4级数据属于个人信息范畴。这两类数据重标识风险低,对其复原需要花费较大成本,企业基于成本考虑可能不会对此类数据进行复原。但即使这两类数据被复原,由于识别到个人的风险低,对个人信息主体的伤害也不大。
在何渊看来,不同行业领域对数据的需求不同,比如医疗健康数据对数据属性的要求高,要求保留的数据属性较多,过度处理会减损数据价值,而金融数据则不需要保留太多数据属性,可以进行更高级别的去标识化。“从目前来看,在隐私保护及商业价值之间并没有找到一个有效的方案,尤其是医疗健康领域,处理的边界目前还不清晰。”何渊说。
应明确去标识化的法律地位
《安全规范》规定,匿名化指对个人信息进行技术处理,使个人信息主体无法被识别或者关联,且处理后的信息不能被复原的过程。
受访专家认为,与去标识化后的信息相比,匿名化后的信息不属于个人信息的范畴,商业价值不大,且将个人信息进行绝对匿名化处理存在较大难度,更有商业价值的是去标识化后的信息。
在杨婕看来,虽然匿名化信息杜绝了个人信息被识别的可能,但在匿名化技术不断发展的背景下,绝对匿名化难以实现。
何渊也认为,将信息进行绝对匿名化处理可能性并不大。从理论角度看,数据可以跨库识别,当数据足够多且投入成本足够大时,任何数据都能被复原。从数据价值角度看,如果对数据进行完全匿名化处理,数据本身几乎没有价值,并不是数据产业所需要的数据。
金耀认为,由于匿名化信息不属于个人信息,商业价值不大,有商业价值的是去标识化后的信息。
不过,与匿名化信息已有明确法律地位不同,去识别化信息的法律地位并未明确。何渊说,《中华人民共和国个人信息保护法(草案)》(一审稿在第六十九条,二审稿在第七十二条)均在附则中对匿名化和去标识化进行概念界定,但无论是一审稿还是二审稿,均在第四条明确了匿名化信息的法律地位,没有明确去标识化信息的法律地位,目前去标识化信息的法律地位并不明确。
金耀也表示,不仅是个人信息保护法草案,网络安全法第四十二条提及的“经过处理无法识别特定个人且不能复原的”信息以及民法典第一千零三十八条提及的“经过加工无法识别特定个人且不能复原的除外”的信息,虽未提及匿名化信息,但根据匿名化的概念特征,均指向匿名化信息,而不是去标识化信息。
金耀认为,目前立法和学界对去标识化的标准、性质、法律效果并没有统一的认知,明确去标识化的法律地位是当前较为紧迫的事情。
杨婕对此持不同看法。她认为,个人信息保护法草案已经对去标识化进行了概念界定,说明立法者已经关注到去标识化的问题。立法需要完善的是,个人信息去标识化之后,后续处理规则如何设置的问题。例如,是否可以对特定级别的去标识化结果使用匿名化处理,允许数据处理者对其进行更便捷的开发与利用等。