基于Web的人物信息搜索关键问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:snmydmyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展和网络数据的爆发式增长,使得Web上积累了海量的信息资源,Web成为人们获取信息的重要渠道。人是客观活动的主体,人物信息是一种很重要的资源,通过Web对人物信息进行搜索是一种很常见的行为。但是海量的信息存在同时增加信息搜索的难度,如何准确、快速、全面的把人们所需要的信息呈现出来是一个急需解决的问题。通用搜索技术某种程度上满足了人们对人物信息搜索需求,但仍存在着一些问题:社交媒体上存在大量的人物信息,但由于其特殊性,普通的信息获取方式并不适用;人物存在重名现象,通用搜索引擎基于关键字匹配的排名方式,使得其对人物重名问题的解决无能为力。本文对上述两个关键问题进行了研究,具体研究内容如下:面向社交网站的个人信息搜索方法研究:对社交网站平台和相关技术进行了详细调研,提出网页解析和API查询相结合的方法。实现了跨平台的社交网站个人信息搜索系统,该系统通过属性匹配的方式解决人名歧义问题,并对提取的信息进行建模保存。Web人物搜索中的人名消歧方法研究:在总结前人相关工作的基础上,提出了一种基于组合特征的Web人名消歧方法,该方法通过提取人物网页不同的特征信息,利用空间向量模型构造组合特征向量,依据特征向量间的相似度比较,运用层次聚类的方法实现人名消歧。Web人名消歧原型系统的设计与实现:在对Web人名消歧方法进行研究的基础上,研发了一个Web人名消歧原型系统。该工具接收人名输入,运用本文所提的人名消歧方法对通用搜索引擎的人名检索结果进行人名消歧,实现以聚类特征为标签的再排功能。在该原型系统上的实验表明,通过特征组合的方式增加聚类特征的准确性,可以有效地提高人名消歧效果。
其他文献
目的 :探讨用中西医结合疗法治疗慢性胃炎的临床效果。方法 :对2012年1月~2013年12月期间我院收治的104例慢性胃炎患者的临床资料进行回顾性研究。我们将这104例患者随机分为
摘要:现代社会已经进入了科技、经济迅速发展的时代,从“地球村”这个词就可以看出国际间的相互合作愈发密切。在人才培养方面,外语教育是必不可少的。因此一个国家的语言政策
盾构法施二已成为开挖城市地铁隧道的主要工法。但盾构施工中,刀盘驱动扭矩过大,始终是制约施工进度的主要因素。从盾构机刀盘驱动系统、土仓内切削土体、泡沫系统、刀盘开口
采用Yaxin-1102便携式光合蒸腾仪,对由红土、泥炭、椰糠、珍珠岩,按照不同比例混合而成6种不同基质栽培下的闭鞘姜叶片光合特性日变化进行测定分析,对盛花期时的株高、茎基部
鉴于资源的合理配置、各国经济优势互补等突出的优点,世界经济一体化已成为不可逆转的趋势,而作为生产与资本国际化产物的跨国公司是其发展的主要推动力之一。加入WTO后,我国无
本试验综合运用植物组织培养及生理生化分析技术,以甘蓝自交不亲和系2000-Ⅰ(亲和指数为0.04)的花粉和柱头为试材,对其离体保存体系、活性鉴定方法、保存前后花粉与柱头相互识
我国是小麦生产第一大国,长期以来也是小麦进口大国.河南是全国最大的小麦生产区之一,其播种面积、总产量、库存量均居全国第一.然而,从1997年起,由于结构性"过剩"等原因,这