论文部分内容阅读
互联网技术的快速发展和网络数据的爆发式增长,使得Web上积累了海量的信息资源,Web成为人们获取信息的重要渠道。人是客观活动的主体,人物信息是一种很重要的资源,通过Web对人物信息进行搜索是一种很常见的行为。但是海量的信息存在同时增加信息搜索的难度,如何准确、快速、全面的把人们所需要的信息呈现出来是一个急需解决的问题。通用搜索技术某种程度上满足了人们对人物信息搜索需求,但仍存在着一些问题:社交媒体上存在大量的人物信息,但由于其特殊性,普通的信息获取方式并不适用;人物存在重名现象,通用搜索引擎基于关键字匹配的排名方式,使得其对人物重名问题的解决无能为力。本文对上述两个关键问题进行了研究,具体研究内容如下:面向社交网站的个人信息搜索方法研究:对社交网站平台和相关技术进行了详细调研,提出网页解析和API查询相结合的方法。实现了跨平台的社交网站个人信息搜索系统,该系统通过属性匹配的方式解决人名歧义问题,并对提取的信息进行建模保存。Web人物搜索中的人名消歧方法研究:在总结前人相关工作的基础上,提出了一种基于组合特征的Web人名消歧方法,该方法通过提取人物网页不同的特征信息,利用空间向量模型构造组合特征向量,依据特征向量间的相似度比较,运用层次聚类的方法实现人名消歧。Web人名消歧原型系统的设计与实现:在对Web人名消歧方法进行研究的基础上,研发了一个Web人名消歧原型系统。该工具接收人名输入,运用本文所提的人名消歧方法对通用搜索引擎的人名检索结果进行人名消歧,实现以聚类特征为标签的再排功能。在该原型系统上的实验表明,通过特征组合的方式增加聚类特征的准确性,可以有效地提高人名消歧效果。