论文部分内容阅读
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满足人们的需求。如何以精准的方式把用户需要的信息呈现给用户已经是搜索引擎亟待解决的问题。人名消歧便是解决这一问题的核心技术。同时人名消歧在个性化搜索、自动问答、热点人物跟踪与发现等领域都有着广泛的应用。目前国内外基于人名消歧的中文人物搜索相关研究还比较少。人名消歧作为近几年刚兴起的一个热门研究方向,正受到越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧仍然存在着很多亟待解决的问题。本文在前人的研究基础上,首创利用构造三层特征空间与两阶段聚类算法相结合的策略进行中文人名消歧。本文的研究内容主要包括以下几个方面:(1)首先对数据预处理中涉及到的技术进行研究改进,分别提出了基于BK树检索的高性能大规模网页去重算法、改进了基于分布函数的网页正文抽取算法、提出了基于多重预处理与CRF相结合的中文分词算法。数据预处理将为后面的人名消歧准备所需的语料。(2)本文提出了基于三层特征空间与两阶段聚类算法相结合的中文人名消歧。在特征选择及构造方面,根据不同文本特征对于区分人物作用的不同,构建三个不同层次的特征空间,并重点研究了如何采用机器学习算法构建语义特征,语义特征空间主要包括文本的领域属性特征、情感属性特征、句法属性特征和URL特征。在聚类策略设计方法,本文采用了两阶段聚类算法。首先在全局特征空间上,利用以基本属性序列对或唯一属性构建初始聚类中心的K-means算法,对文本进行初步聚类,得到类别粒度较大的类簇。最后采用EM算法对每个类簇再进行二次聚类,得到最终聚类结果。(3)结合本文提出的算法,设计并实现了中文人物搜索系统。本文在CIPS-SIGHAN2010中文人名消歧语料集上进行多个对比实验,实验结果表明,基于三层特征空间与两阶段聚类相结合的中文人名消歧效果良好,F-score达到了94.6%,比CIPS-SIGHAN2010中文人名消歧任务中排名第一的算法高了3.09%。