论文部分内容阅读
随着自然语言处理、数据挖掘等技术的发展,尤其是搜索引擎的广泛应用,人们可以很高效地将原本分散的信息组织在一起,普通用户也能便捷地从网络中获取期望的信息。然而强有力的网络信息检索技术是把双刃剑,用户在获取外部知识变得更快捷的同时,隐藏自己的私有信息也变得越来越困难。用户在论坛、博客、社交网络等web应用上发布的原本安全的信息、,攻击者通过搜索引擎进行的相关实体推定,就有可能造成用户的信息泄漏。传统的信息防护多集中在数据库及信息安全领域,前者主要研究结构化数据上的信息、保护;后者主要研究传输路径上的信息安全。本文作为863研究发展计划“基于Web的用户数据安全防护关键技术研究”的关键子项目,主要研究大规模非结构化数据上的敏感信息的关联性,构建互联网环境下的敏感信息保护框架,相关的研究背景主要集中在信息检索与自然语言处理方面。本文在利用搜索引擎的基础上,针对互联网用户数据的特点,综合运用了文本挖掘与信息检索的多种技术与方法,提出了一个多角度关联模型,通过相关实体检索预测出潜在的用户信息泄漏,从而达到保护用户信息的目的。本文的工作主要包括:●介绍信息保护的研究现状,数据库及信息安全领域的传统信息保护方法,大规模非结构化数据防护涉及到的技术与方法●提出基于相关实体检索算法的信息保护框架,构建多角度实体关联模型,并通过对权威主页的深度挖掘,改进了关联模型的检索结果。●以框架为基础设计和实现了一个基于互联网海量语料的信息防护系统。系统的相关实体检索模块在TRE-C2010的相关实体任务数据集上进行了实验,与基于BM25及贝叶斯模型等其他实体检索方法相比,本文提出的方法各项评测指标都优于前者,显示了模型的准确性和适用性,证明了方法的有效性。