论文部分内容阅读
欧盟在2018年5月25日发布了《一般数据保护条例》(GDPR),旨在保护欧盟和欧洲经济区内所有公民的个人信息和隐私。2018年5月28日,Facebook和Google等美国企业成为GDPR法案下第一批被告。2018年9月10日,中国人大网公布《十三届全国人大常委会立法规划》,个人信息保护法是第61个项目,这意味着我国个人信息保护将迎来专门立法。由此可见,个人信息保护是一个趋势,企业应该做好应对。隐私政策一般出现在公司官方网站的底部,它既是一种行业自律手段,也是一种用户隐私保护手段。隐私政策通常很长,人们在短时间内无法阅读理解,通过人工阅读理解来分析大量隐私政策文本也是很困难的。一个地区(比如中国)的隐私政策在结构、内容上都具有很强的一致性,这些企业的隐私政策都是根据该地区的法律等相关规定来制定的。但这些隐私政策分散在各个企业的网站,非结构化的文本信息让人无法从全局获取信息进行分析。实体抽取是指从文本集中自动识别并抽取人名、地名、机构名称等实体。对同一地区的隐私政策进行实体抽取并构建实体关联图,可以将杂乱无章的隐私政策文本以实体和关系形式存储到图数据库中,进行宏观把握对比分析,且通过查询语句可以获取所需要的信息,从实体层面进行细致的分析。本文拟从隐私政策入手,基于实体抽取等方法技术,通过对中国和欧洲互联网公司隐私政策的对比分析,并结合GDPR中的相关规定,对互联网公司的隐私政策提出建议,从而在一定程度上解决个人信息保护的问题。
首先对实体抽取和构建实体关联图的方法进行选择。本文实体关联图的构建和分析流程为:数据预处理,实体抽取,存入图数据库,查询需要的信息。在数据预处理的过程中,使用POStagger进行词分割和词性标注,并对文本格式进行调整,使其符合CRF++工具的使用要求。实体抽取有三种方法:有监督的方法,半监督方法和无监督方法。有监督的方法就是把实体抽取问题变为序列标注问题。本文选取有监督方法中的条件随机场(CRF)来进行实体抽取。条件随机场模型将最大熵马尔可夫模型(MEMM)中的条件概率转化为特征函数形式,通过训练得到不同特征的权重。条件随机场(CRF)结合了生产模型的特点,它不仅避免了隐马尔科夫模型(HMM)的强独立性假设,而且有效地解决了最大熵马尔可夫模型(MEMM)中的标注偏移问题,在序列标记中具有良好的效果。本文实体抽取具体实现过程采用CRF++工具,是本文实体关联图构建的核心和难点。先把完成预处理的语料分为训练集和测试集(本文训练集与测试集的数量比例为1∶1),对训练集进行人工标注(BIO标注),并构造特征模板(Unigram模板),再利用CRF++中的程序对训练集进行训练生成模型,最后利用生成的模型对测试集进行预测,并对实体抽取结果进行评估,评估指标为精确度、召回率和F值。随后把抽取出来的实体以“.csv”格式存入Neo4j图数据库,形成实体关联图,最后使用Cypher查询语句在图数据库中查询所需要的信息。
其次是中国和欧洲互联网公司隐私政策的比较过程,分为两部分:总体分析和基于实体关联图的分析。在进行两部分对比分析之前先进行样本选择,本文根据“中国互联网协会、工业和信息化部信息中心联合发布2018年中国互联网企业100强榜单”和欧洲Informilo网站评选的“欧洲最受欢迎的25家互联网公司”这两份名单分别进行样本选择和语料准备。需要指出的是,本文所研究的中国互联网公司隐私政策指的是中国大陆互联网公司面向中国大陆人民的隐私政策。总体分析是对中欧隐私政策的基本特征进行概括性的统计对比。在寻找隐私政策链接的过程中,发现有些公司没有隐私政策,有些公司很难找到他们的隐私政策。此外,更新时间通常出现在隐私策略的开头或结尾,容易统计。因此,从以下三个角度进行了总体比较:是否有隐私政策、隐私政策的位置、隐私政策的更新时间。结果表明:(1)所有样本的欧洲互联网公司都有隐私政策,但一些中国互联网公司没有;(2)欧洲互联网公司的隐私政策位置比中国互联网公司更容易找到;(3)欧洲互联网公司隐私权政策的更新时间集中2018年5月25日前后,中国互联网公司的更新时间是分散的。而后按照本文实体关联图的构建方法,分别选取隐私政策中“我们收集的信息”和“联系我们”的部分进行实体关联图的构建和分析。一般来说,虽然在表述上略微不同,但隐私政策都包含以下几个部分:“我们收集的信息”、“我们怎样使用收集的信息”、“Cookies/Beacons的使用”、“联系我们”等。由于从“我们收集的信息”和“联系我们”这两部分可以抽取需要的实体构建相应的实体关联图,并且这两部分对于评估隐私政策的质量有很强的重要性,而从其它部分如“我们怎样使用收集的信息”、“Cookies/Beacons的使用”无法高质量地提取需要的信息,所以本文选择“我们收集的信息”和“联系我们”这两部分分别构建实体关联图并比较分析。关于隐私政策中其他部分的分析,可在未来研究中用其它方法技术继续探索。在“我们收集的信息”部分,抽取收集的用户信息作为实体构建实体关联图,由于“收集信息”的实体关联图包含的实体过多,使用Cypher语句在该图数据库中进一步查询,对结果进行比较。在“联系我们”部分,抽取“邮箱”、“地址”、“电话”、“回复时间”作为实体分别构建实体关联图,并对比分析。结果表明:(1)部分中国互联网公司没有隐私政策,并很难找到隐私政策链接。(2)欧洲互联网企业的隐私政策发布日期集中在2018年5月25日,中国的较为分散。(3)欧洲互联网公司详细列出了他们在隐私政策中收集的个人信息,但中国互联网公司喜欢概括他们收集的个人信息。(4)欧洲的互联网公司喜欢收集健康数据、Facebook账户和其他带有西方色彩的个人信息,而中国的互联网公司喜欢收集位置和信用卡卡号等个人信息。(5)中国和欧洲互联网公司都至少提供一种联系方式,但样本中欧洲的互联网公司没有给出回复期限。
最后,结合GDPR的相关内容,对对比分析结果做进一步讨论,并对互联网公司的隐私政策提出建议。根据调查结果,并结合GDPR,对互联网公司提出以下五点建议:(1)制定隐私政策并将其放在明显的位置;(2)及时更新隐私政策;(3)在隐私政策中详细列出收集到的个人信息;(4)不收集与目标无关的个人信息;(5)在隐私政策中提供有效的联系方式,并设置回复期限。中国互联网公司的隐私政策虽然存在一些优点,但与欧洲互联网公司仍有很大差距,所以另一个建设性建议是,中国应尽快根据国情制定自己的个人数据保护法律。
关于隐私政策的对比研究大部分停留在文本的解读和基本特征的统计分析,也有基于自然语言处理技术的文本分析,但没有研究从实体的角度去细微解读。本文将实体抽取应用于隐私政策研究,从比较的视角分析了中欧互联网公司的隐私政策,并结合GDPR对比较结果进行分析,提出建议,同时也为中国《个人信息保护法》的制定提供参考。
应当指出的是,本研究用的实体抽取方法并不适用于所有样本。因为本研究的重点是比较,而不是技术评估指标的提高,因此当遇到实体抽取结果不完美的问题时,对其进行了人工处理,最终得到了良好的结果。在样本不太大的情况下这种方式可行,但是如果实体达到数百万或更多,手工作业就无法解决。基于上述局限性,可以提出一个展望:尝试利用其他技术提高实体抽取效果。另一个展望是开发一个系统来简化隐私政策的人工阅读过程。通过研究,发现隐私政策对于用户来说太长而难以阅读,这不利于用户的网络隐私保护。如果开发一个简化阅读的系统,本文抽取的隐私政策实体可以应用其中。各地相应的法律法规也可以作为标准引入到该系统,构建一个隐私政策质量评分体系,帮助用户对隐私政策有一个客观的认识。例如,可以将GDPR设置为欧洲企业隐私政策的标准来帮助欧洲用户阅读隐私政策。
首先对实体抽取和构建实体关联图的方法进行选择。本文实体关联图的构建和分析流程为:数据预处理,实体抽取,存入图数据库,查询需要的信息。在数据预处理的过程中,使用POStagger进行词分割和词性标注,并对文本格式进行调整,使其符合CRF++工具的使用要求。实体抽取有三种方法:有监督的方法,半监督方法和无监督方法。有监督的方法就是把实体抽取问题变为序列标注问题。本文选取有监督方法中的条件随机场(CRF)来进行实体抽取。条件随机场模型将最大熵马尔可夫模型(MEMM)中的条件概率转化为特征函数形式,通过训练得到不同特征的权重。条件随机场(CRF)结合了生产模型的特点,它不仅避免了隐马尔科夫模型(HMM)的强独立性假设,而且有效地解决了最大熵马尔可夫模型(MEMM)中的标注偏移问题,在序列标记中具有良好的效果。本文实体抽取具体实现过程采用CRF++工具,是本文实体关联图构建的核心和难点。先把完成预处理的语料分为训练集和测试集(本文训练集与测试集的数量比例为1∶1),对训练集进行人工标注(BIO标注),并构造特征模板(Unigram模板),再利用CRF++中的程序对训练集进行训练生成模型,最后利用生成的模型对测试集进行预测,并对实体抽取结果进行评估,评估指标为精确度、召回率和F值。随后把抽取出来的实体以“.csv”格式存入Neo4j图数据库,形成实体关联图,最后使用Cypher查询语句在图数据库中查询所需要的信息。
其次是中国和欧洲互联网公司隐私政策的比较过程,分为两部分:总体分析和基于实体关联图的分析。在进行两部分对比分析之前先进行样本选择,本文根据“中国互联网协会、工业和信息化部信息中心联合发布2018年中国互联网企业100强榜单”和欧洲Informilo网站评选的“欧洲最受欢迎的25家互联网公司”这两份名单分别进行样本选择和语料准备。需要指出的是,本文所研究的中国互联网公司隐私政策指的是中国大陆互联网公司面向中国大陆人民的隐私政策。总体分析是对中欧隐私政策的基本特征进行概括性的统计对比。在寻找隐私政策链接的过程中,发现有些公司没有隐私政策,有些公司很难找到他们的隐私政策。此外,更新时间通常出现在隐私策略的开头或结尾,容易统计。因此,从以下三个角度进行了总体比较:是否有隐私政策、隐私政策的位置、隐私政策的更新时间。结果表明:(1)所有样本的欧洲互联网公司都有隐私政策,但一些中国互联网公司没有;(2)欧洲互联网公司的隐私政策位置比中国互联网公司更容易找到;(3)欧洲互联网公司隐私权政策的更新时间集中2018年5月25日前后,中国互联网公司的更新时间是分散的。而后按照本文实体关联图的构建方法,分别选取隐私政策中“我们收集的信息”和“联系我们”的部分进行实体关联图的构建和分析。一般来说,虽然在表述上略微不同,但隐私政策都包含以下几个部分:“我们收集的信息”、“我们怎样使用收集的信息”、“Cookies/Beacons的使用”、“联系我们”等。由于从“我们收集的信息”和“联系我们”这两部分可以抽取需要的实体构建相应的实体关联图,并且这两部分对于评估隐私政策的质量有很强的重要性,而从其它部分如“我们怎样使用收集的信息”、“Cookies/Beacons的使用”无法高质量地提取需要的信息,所以本文选择“我们收集的信息”和“联系我们”这两部分分别构建实体关联图并比较分析。关于隐私政策中其他部分的分析,可在未来研究中用其它方法技术继续探索。在“我们收集的信息”部分,抽取收集的用户信息作为实体构建实体关联图,由于“收集信息”的实体关联图包含的实体过多,使用Cypher语句在该图数据库中进一步查询,对结果进行比较。在“联系我们”部分,抽取“邮箱”、“地址”、“电话”、“回复时间”作为实体分别构建实体关联图,并对比分析。结果表明:(1)部分中国互联网公司没有隐私政策,并很难找到隐私政策链接。(2)欧洲互联网企业的隐私政策发布日期集中在2018年5月25日,中国的较为分散。(3)欧洲互联网公司详细列出了他们在隐私政策中收集的个人信息,但中国互联网公司喜欢概括他们收集的个人信息。(4)欧洲的互联网公司喜欢收集健康数据、Facebook账户和其他带有西方色彩的个人信息,而中国的互联网公司喜欢收集位置和信用卡卡号等个人信息。(5)中国和欧洲互联网公司都至少提供一种联系方式,但样本中欧洲的互联网公司没有给出回复期限。
最后,结合GDPR的相关内容,对对比分析结果做进一步讨论,并对互联网公司的隐私政策提出建议。根据调查结果,并结合GDPR,对互联网公司提出以下五点建议:(1)制定隐私政策并将其放在明显的位置;(2)及时更新隐私政策;(3)在隐私政策中详细列出收集到的个人信息;(4)不收集与目标无关的个人信息;(5)在隐私政策中提供有效的联系方式,并设置回复期限。中国互联网公司的隐私政策虽然存在一些优点,但与欧洲互联网公司仍有很大差距,所以另一个建设性建议是,中国应尽快根据国情制定自己的个人数据保护法律。
关于隐私政策的对比研究大部分停留在文本的解读和基本特征的统计分析,也有基于自然语言处理技术的文本分析,但没有研究从实体的角度去细微解读。本文将实体抽取应用于隐私政策研究,从比较的视角分析了中欧互联网公司的隐私政策,并结合GDPR对比较结果进行分析,提出建议,同时也为中国《个人信息保护法》的制定提供参考。
应当指出的是,本研究用的实体抽取方法并不适用于所有样本。因为本研究的重点是比较,而不是技术评估指标的提高,因此当遇到实体抽取结果不完美的问题时,对其进行了人工处理,最终得到了良好的结果。在样本不太大的情况下这种方式可行,但是如果实体达到数百万或更多,手工作业就无法解决。基于上述局限性,可以提出一个展望:尝试利用其他技术提高实体抽取效果。另一个展望是开发一个系统来简化隐私政策的人工阅读过程。通过研究,发现隐私政策对于用户来说太长而难以阅读,这不利于用户的网络隐私保护。如果开发一个简化阅读的系统,本文抽取的隐私政策实体可以应用其中。各地相应的法律法规也可以作为标准引入到该系统,构建一个隐私政策质量评分体系,帮助用户对隐私政策有一个客观的认识。例如,可以将GDPR设置为欧洲企业隐私政策的标准来帮助欧洲用户阅读隐私政策。