新闻动态News
首页新闻动态 – 商会新闻
财新|陈利浩:“个人信息”的界定、保护和共享
发布:2021-05-26 11:48:14 发布人:浙江商会

 




《个人信息保护法(草案)》规定,只有满足“匿名化”标准的才是“非个人信息”,符合“去标识化”标准的仍然属于个人信息。陈利浩深入分析了“去标识化”和“匿名化”的概念指出,区别这两个法律概念,主要的标准是:是否能够“重新识别”、即“能否复原”个人身份,但完全的“不能复原”不但技术上几乎不可能实现,而且也意味着数据的基本不可用。陈利浩建议用“去身份化”命名对个人信息的界定标准,并提出了对《个人信息保护法(草案)》的具体修改建议。《财新网》“观点”栏目5月17日刊发。







“个人信息”的界定、保护和共享

专栏作家 九三学社中央促进技术创新工作委员会副主任、广东省政协研究咨询委员会委员 陈利浩

《中华人民共和国个人信息保护法(草案)》(以下简称“草案”)提请全国人大常委会审议,标志着我国对个人信息的保护进入了实质操作的阶段。但是,其中对个人信息和非个人信息的区分,对“去标识化”、“匿名化”的定义,尚待进一步完善。试探讨如下。

一、“去标识化”、“匿名化”辨析。

信息的“社会化”,前提是每个社会成员的信息都要成为社会“大数据”的一部分,供调用、共享、分析。但是,为了不暴露个人身份,要先对信息进行相应的技术处理。让我们通过一个例子说明这种处理过程。

如果有一个录音文件,其中包含了讲话人姓名、录音设备识别码、讲话内容的音频文件。现在,要把这个录音文件放到“大数据”中供分析、利用,但又不能暴露、“识别”出具体的讲话人是谁,那就要进行技术处理:

首先肯定要删除讲话人姓名、设备识别码,只剩下音频文件。这样,从音频文件本身已经不能直接“识别”出讲话人。

但讲话人的声音特征(声纹)很可能已保存在某些数据库里,通过比对声音特征(“声纹”)可以去“识别”讲话人,那就要把声纹“置换”掉。常用的方法是先从语音识别成文字,由另一个人(或机器)读一遍,录成另一个音频文件。这样,通过比对声音特征也“无法识别”讲话人了。

但讲话人之前的讲话内容可能存放在“文本大数据”,通过比对“句序” 可以去“识别”讲话人,那就要把“句序”特征“置换”掉,如讲话人爱用倒装句,那就要把倒装句全部换成其他句型。这样,通过比对“句序”也“无法识别”讲话人了。

但还是可以通过在文本大数据中比对“高频词”去“识别”讲话人,那就要把“高频词”特征“置换”掉,如讲话人爱用“然后”这个词,那就要把“然后”全部换成其他词。这样,通过比对“高频词”也“无法识别”讲话人了。

但还是可以通过在文本大数据中比对“主题和内容” 去“识别”讲话人,那就要把“主题和内容”特征“置换”掉,如讲话人常对“网红”题目发声,那就要把和“网红”有关的文字都换掉。这样,通过比对“主题和内容”也“无法识别”讲话人了。

上面每一步的目的是“匿名”,即使得无法从数据“识别特定自然人”。手段是“去标识”,从去姓名和设备识别码标识,到去“声纹”标识,到去“句序”标识,到去“高频词”标识,到去“主题和内容”标识。但手段中的“置换”,在技术上有时又作为“匿名处理技术”的一种。

所以,“去标识”是处理方式,“匿名”是处理目的、但有时又描述技术手段。“去标识”和“匿名”是技术概念,而且不是并列的技术概念,用来做法律概念,需要明辨异同。

“草案”第七十二条对“去标识化”和“匿名化”做了描述,其目的都是“经过处理无法识别特定自然人”。不同点在于:“去标识化”后,借助额外信息可以重新识别特定自然人(文本表述是“在不借助额外信息的情况下无法识别特定自然人”);“匿名化”后,即使借助额外信息也不能重新识别特定自然人(文本表述是“无法识别特定自然人且不能复原”)。也就是说:区别这两个法律概念,主要的标准是:是否能够“重新识别”、即“能否复原”个人身份。

而“能否复原”恰恰是一个无法确定的标准。回到上面的例子。即使我们采用了那么多个步骤去掉了姓名标识、设备识别码标识、“声纹”标识、“句序”标识、“高频词”标识、“主题和内容”标识,这样是不是就“不能复原”了呢?不一定。还可能从文本大数据通过比对思想倾向、政治立场、论证方法等等,去识别出讲话人,依然存在着“复原”的可能。

如果把网络安全领域的病毒、黑客等比作“矛”,把安全保护技术比作“盾”,矛和盾总是在“你追我赶”,总体上“势均力敌”。但如果把数据“去标识”、“匿名”技术比作“盾”、把匿名识别技术、数据复原手段比作“矛”,则似乎“矛”总比“盾”要厉害。事实上,所有“去标识”、“匿名”的技术,都有被重新识别、被“复原”的案例。即使在美国这样为了保护“隐私”、都无法实行统一的身份证制度的国家,研究人员也发现:只使用“邮编、性别、出生日期”这三个信息,就有81%的概率可以在“匿名”数据集里成功地“重新识别”个人。他们判断:“使用15个人口统计属性, 足以把99.98%的美国人从任何‘匿名化’的数据集里重新识别出来。”(Charlotte Jee, You’re very easy to track down, even when your data has been anonymized, MIT Technology Review, July 23, 2019.)这是什么原因呢?

从原理上,数据分析和利用从本质上是对个人的展示,数据匿名技术则要把个人保护和隐藏起来,在一定程度上本来就是悖论。某人产生的信息之所以具备分析和利用价值,一定跟其身份、状态、偏好、经历等有某种关联。而完全的“不能复原”则要求切断所有的关联,但一旦切断了所有的关联,信息的分析、利用价值也就基本消失了。在上面的例子中,如果我们进一步把录音文件中的思想倾向、政治立场、论证方法等标识也都进行“置换”,“重新识别”倒是更难了(也不是绝对“不能复原”),但这个录音还有分析、利用的价值吗?所以,完全的“不能复原”不但技术上几乎不可能实现,而且也意味着数据的基本不可用。

还是用“矛和盾”的比喻。“草案”对匿名化“不能复原”的要求,意味着要有一面这样的盾牌,用任何一种武器、用任何一种方法、借助于任何外力都无法攻破,这在实际上是不可能的。我们能遇到的通常是:经过一定的“去标识化”处理,不能直接识别个人身份,但是“借助额外信息”即去所有的数据集比对,一定能程度不同地“重新识别”、“复原”的。这样的信息,符合的是“草案”中的“去标识化”标准。

问题在于:按照“草案”的规定,只有满足“匿名化”标准的才是“非个人信息”,符合“去标识化”标准的仍然属于个人信息,因此,实务中所有信息基本都是个人信息,都需要法律的严格保护。这既不符合实际情况,也背离了立法原意,更会严重影响对数据的利用、分析、研究,阻碍数字经济、数字产业、数字科研、数字社会治理的发展。从数据处理者的立场,由于在数据处理前无法确定、在数据处理后也无法验证到底是不是个人信息,而按照“个人信息”处理则需处处征集许可、几乎寸步难行,那就干脆都不按照“个人信息”保护了。反正你要求的绝对完美、万年不破的“盾牌”我做不出来,就干脆不用盾牌。所以,对个人信息的界定出现偏颇或不确定,既不利于使用、也不利于保护。

法律、规范定义的“盾牌”,应该有事先的标准,明确告知:用什么材料制作、通过哪种工艺锻造、达到多少厚度或强度的“盾牌”,就已经足以抵御面临的矛。

二、“去身份化”的思路。

考虑到“去标识化”、“匿名化”已经在技术和法律、手段和目的、初衷和效果、国际和国内等各种场合、在不同意义和程度上被使用,因此,建议对个人信息的界定标准采用一种新的命名,笔者建议采用“去身份化”。其基本思路还是依据“草案”中的“不能识别特定自然人”。以下是“去身份化”的一种界定方法。

先把个人信息分为两部分:

一部分是“身份信息”,即可以直接或间接确定个人身份的信息,如姓名、身份证件和其他各种证件号码、地理住址、网络地址、联系方式(手机及固定电话号码、电子邮箱、社交媒体的注册名等)、账户号码(银行、证券、社保、保险等)、交通工具牌照号、生物特征(指纹、声纹、虹膜、人脸图像),等等。
另一部分是“领域信息”,如医疗健康报告、行程记录、购物清单、交通记录等。

然后,设想、列举所有不能用于“识别特定自然人”的信息组合:
例如,不和“身份信息”关联的“领域信息”。如:50岁以上的肺结核病例、今天从北京到通州的人员路径、本周内成交的分体式空调品牌等。显然都不能用来“识别特定自然人”。

例如,技术处理后的“身份信息”和“领域信息”的关联。如一个银行账户余额列表,包含账号、余额两列,但其中的账号已经进行了技术处理,无法用来识别账户所有人。

例如,技术处理后的“身份信息”之间、“身份信息”和“领域信息”、其他信息之间的关联。如一个银行账户余额列表,包含姓名、账号、余额三列,其中的姓名、账号已经进行了更高强度的技术处理,无法用来识别账户所有人。

等等。

穷举、归纳后可以发现:是否能“识别特定自然人”,取决于“有没有包含未经技术处理的身份信息”。只要没有包括身份信息,或包括的身份信息已经作了相应强度的技术处理(泛化、抑制、聚类、分解、置换及干扰等),这样的信息就已经不能在合理的资源、成本内用于“识别特定自然人”,即可被认为是“非个人信息”。

这样,数据处理者在处理数据前根据内容就可以判定究竟是不是“个人信息”,就可以设计不同的处理流程。需要判断的信息是完备、明确的,不需要等到事后的结果。

三、对《个人信息保护法(草案)》
的具体修改建议。

1、删除第七十二条中对“匿名化”和“去标识化”的描述内容。

2、把第四条中“不包括匿名化处理后的信息”改为“不包括‘去身份化’后的信息”。

3、把第五十一条中“采取相应的加密、去标识化等安全技术措施”改为“采取相应的加密等安全保护措施”。这条规范的是对内的管理制度、而不是数据处理过程。如果管理的是原始的个人信息、本来就应该有身份标识,“去标识化”后信息系统就不能运行了。如果是对发布、提供的信息的规范,应该放在第二章。

4、增加以下规定:

原始的个人信息可分为“身份信息”和“领域信息”。只要在供调用、处理的数据中不出现“身份信息”,或者出现的“身份信息”经过相应强度的技术处理、使之在合理的成本和资源内不可重新识别,即可视为已完成“去身份化”。

5、个人信息的处理几乎全部经由计算机信息系统,但《个人信息保护法(草案)》未对信息系统作任何描述、规定,建议适当增加。如:

在处理个人信息的计算机系统中不得直接提供依据个人身份信息调用其他身份信息或领域信息的功能。所有对这类信息的调用,都要先转向信息产生者个人、或产生者的授权人、或法律法规规定情形的授权人,让他们充分了解调用者的身份、涉及的信息种类、调用目的、信息范围、时限、对权益的影响等,由他们作出许可与否的决定。计算机系统还应提供许可后撤销许可的功能。

6、为了增强全社会的个人信息保护和共享意识,建议增加规定:
在产生、形成个人信息的所有场合,都在有关位置(屏幕提示、文件封面等)显示、印刷、打印以下内容:“(本过程产生/本文件记载)的内容均属于个人信息,对其的调用、处理、共享必须取得本人或本人的授权人许可,或者依据国家法律法规的其他规定。任何单位和个人未经上述许可或规定都不能使用这些信息,也不能妨碍、阻止经过许可、符合规定的对这些信息的使用。”

个人信息的共享、利用、处理,和个人信息的保护,在理论上和实践中都是需要均衡的“两难”。一方面,数据的“社会化”,既极大方便了人民群众的生活,又成为经济发展和社会进步的强大动力,还空前地驱动着科学研究、科技创新,使得我国在数字经济、数字产业、数字科研上独树一帜。另一方面,未经许可收集和使用用户个人信息、窃取和出卖个人信息等现象日益严重,个别部门滥用个人信息的问题也时有发生。最近的“清朗”系列网络整治专项行动八个重点中,算法滥用、流量造假等和个人信息有关的就占了一半。平衡好信息开发利用与保护个人信息安全的关系,事关经济社会发展大局,事关每个社会成员的安全和权益,这是对个人信息界定的重要意义所在。




Process: 0.0458s
0.0472s