高校数据隐私保护技术

      高校数据隐私保护技术无评论

  随着高校信息化的发展,以及大数据、物联网和云计算技术的发展,越来越多高校或主动或被动地进入了大数据时代。从校园一卡通、网络访问行为到教学、科研等各类业务系统,都产生积聚了大量数据,而这些数据的价值毋庸置疑,对于学校来说是很宝贵的,而且里面有大量的用户隐私信息,一但泄露,用户的隐私将被侵犯。在实际使用中,一部分数据用于校内信息化部门或各系统自主分析,或者共享给校内科研团队进行科研分析,或者共享给外部技术公司来进行分析。而这些不可避免地涉及到用户的隐私问题。尤其是常见的姓名、工号、邮箱地址、身份证号等与人员标示相关的数据。

  20世纪最著名的用户隐私泄露事件发生在美国马萨诸塞州。为了推动公共医学研究,该州保险委员会发布政府雇员的医疗数据,并且对数据进行了初步的匿名化处理,删除了所有的敏感信息。然而,来自麻省理工大学的Sweeney还是根据另外一份公开的投票人名单,进行数据匹配,成功破解了这份医疗数据,确定了具体某一个人的医疗记录。2006年,美国在线公司(AOL)公布了超过65万用户三个月内的搜索记录,以推动搜索技术的研究。AOL用一个随机数代替用户的账号进行匿名化处理,但《纽约时报》成功将部分数据去匿名化,并公开了其中一位用户的真实身份。美国网飞公司(Netflix)曾举办了一个推荐系统算法竞赛,发布了一些“经过匿名化处理的”用户影评数据供参赛者测试,仅仅保留了每个用户对电影的评分和评分的时间戳。然而,来自德州大学奥斯汀分校的两位研究人员借助公开的互联网电影数据库(IMDB)的用户影评数据,获得了IMDB用户。为此,2009年Netflix遭到了4位用户的起诉,也不得不取消了该竞赛。此外,政府主导的公共数据的开放,也面临着和医疗数据同样的隐私保护问题。以上各方面都促进了数据隐私保护技术的发展。

  数据匿名化的技术

  通过数据匿名化,机密数据的关键部分将被模糊化,从而保护了数据隐私。但是该部分数据仍然可以被处理分析以获得一些有用信息。也就是说,数据匿名化不能影响数据的可分析部分的结果,否则数据匿名化就失去了它的价值。

  譬如上海海事大学员工的乘车数据,校内一位老师提出申请,希望获得班车数据进行分析,对学校的管理提出改进建议。若不进行匿名化,则该老师获取了非授权内的信息,而且也是其他老师不愿意被共享的信息,其次,姓名等信息与该老师的预期分析结果无关,所以可以对班车数据进行数据匿名化处理。如图1所示。

高校数据隐私保护技术

  图1展示了使用数据匿名化保护数据隐私的一个简单示例,除了简单替换学工号,还可以通过添加一些虚构数据,从而避免被获取内部师生的真实数量信息。若对方形成了有效的分析方法,我们可以将该方法应用于我们内部的真实数据,从而得到真实的结果为管理层决策提供数据分析支撑。然而实际案例不是如此简单,如果仅仅替换学工号,如同AOL的案例一样,安全研究人员还可以通过分析其他数据,进行关联性分析,推断出代号对应的实际学工号。

  目前数据隐私保护的方法可以分成以下几类:

  1.扰动(Suppression)和泛化(Generalization)的方法。扰动是对原数据中正确的数值做一些变换,比如加上一个随机量,而且当扰动做完后,要保证分析扰动数据的结果和原数据的结果一致。泛化是指从一个合适的范围内将原值替换为一个新值,例如将日期随机替换为一年内的某一天。许多未经过处理的数据都包括用户的姓名、身份证号等身份信息,这些属性在公开前可以直接删除或者替换为某个值,也可以看作泛化的一种形式。

  2.k-匿名化(k-anonymity)和l-多样性(l-diversity)的方法。

  数据集上的个体识别字段有可能需要一个或多个字段构成,这些属性的集合称为准标识符(Quasi-Identifier,QI)。通过准标识符可以充分识别唯一一个个体,例如姓名和学工号。k匿名化通过扰动和泛化的方法使得每一个准标识符都至少对应k个实例,这样就不能惟一识别,从而保护了用户的隐私。k-匿名由Samarati和Sweeney(也就是前文提及的马塞诸塞州用户泄露案例的攻击者)提出,可以保证任意一条记录与另外的k-1条记录不可区分。

  3.分布式(Distribution)隐私保护。大型的数据集可以在被分割后发布。划分可以“纵向”地进行,例如将数据分成不同的子集分别在不同的地方公开;也可以“横向”地进行,例如按照属性划分成不同的数据集再公开,或者两者结合起来。例如班车数据,可以根据不同的需要只提供代号和刷卡时间,不提供地点;或者只提供某年某月的班车数据。

  4.降低数据挖掘结果的效果。在很多情况下,即便数据无法被获取,数据挖掘的结果(比如关联规则或者分类模型)仍然有可能泄露隐私。为此可以隐藏某些关联规则或轻微改变分类模型来保护隐私。

  5.差分隐私(Differential Privacy)保护的方法。它是Microsoft研究人员在2006年提出的,基本思路是通过添加噪声的方法,确保删除或者添加一个数据集中的记录并不会影响分析的结果;差分隐私保护定义了一个极为严格的攻击模型,并对隐私泄露风险给出了严谨、定量化的表示和证明。差分隐私保护在大大降低隐私泄露风险的同时,极大地保证了数据的可用性。差分隐私保护方法的最大优点是,虽然基于数据失真技术,但所加入的噪声量与数据集大小无关,因此对于大型数据集,仅通过添加极少量的噪声就能达到高级别的隐私保护。因此,即使攻击者得到了两个仅相差一条记录的数据集,通过分析两者产生的结果都是相同的,也无法推断出隐藏的那一条记录的信息。

发表评论