Web人名消歧方法的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:dingmx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名歧义是一种身份不确定现象,现实中同一个姓名可能被多个实体人物所使用,这种情况都会产生人名歧义。随着Internet的发展,网页中人名同名问题开始对网络应用,特别是给搜索引擎带来不利影响。Web人名消歧研究如何把Web网页中的人名按照真实世界中具体的人进行分类,它是近几年来才发展起来的自然语言处理技术的一个研究热点。首先,本文分析了人名消歧的国内外研究现状,并结合人名消歧的关键技术,提出了人名消歧的基本框架和处理流程。其次,本文通过对Web网页结构分析,针对人名消歧的特点,提出了基于CSS的网页主体内容提取技术。该技术通过对网页进行解析和布局处理,获取其中的CSS信息,抽取网页正文和对人名消歧有价值的标记。实验证明本方法具有较高的完整率。最后,特征选择在人名消歧中有至关重要的作用,本文在研究了浅层语义分析特征在人名消歧中的作用的基础上,根据网页的主题相关性和名字上下文噪音小等特性,提出一种基于主题模型LDA(Latent Dirichlet Allocation)和上下文摘要聚类相结合的Web人名消歧方法。该方法采用主题模型对文本进行初步处理,得到文本的主题相关性,然后再根据人名存在的主题相关性进行人名消歧。本文把该方法和基于最大最小原理改进的K-Means聚类方法相结合来实现Web人名消歧,实验结果表明我们的方法能有效提高人名消歧的性能。
其他文献
学位
随着移动通信技术的发展,手机的普及率逐年上升,移动增值服务成功的解决了人们希望通过手机获取计算机网络中信息的需求,近年来得到了快速的发展。随着社会发展的加快,对移动
近年来网络信息随着互联网技术的发展在急剧增长,同时国家主席习近平也提出了互联网+的概念,因此在互联网中产生了大量、且具有研究价值的文本信息,如互联网参与人员发表的关
近年来,由于国内电源行业的快速发展使得电源企业规模得到不断扩大。在生产能力和经济效益小断提高的同时,企业信息化建设无法跟上企业的发展步伐,已经成为企业进一步发展的
WebGIS技术是GIS在网络技术上的应用,随着Internet的发展,WebGIS的应用已经深入到各领域,正面向标准化、开放性和跨平台方面发展。目前,很多领域已经实现了WebGIS研究,WebGIS已成
随着互联网的普及,以及电子商务的迅猛发展,网络交易日渐流行,越来越多的商品从现实交易转向虚拟交易,导致信息资源的数据种类和数据量迅速增长,推动了电子商务个性化推荐的
学位
本课题来源于上海海洋大学临港新校区的网络建设项目。本课题所实现的系统模型是在深入研究了IPv4和IPv6双协议栈及网络管理技术的基础上,根据实践过程中的网络管理系统的需求
学位
随着冷冻电镜技术的发展,对生物大分子的成像精度要求越来越高。现有技术条件下,使用冷冻电镜技术采集的生物大分子的投影图像衬度低,信噪比低,图像模糊,图像中的单颗粒与背
随着嵌入式软件测试的发展,在要求高可靠性的领域对“白盒”测试的要求也越来越高,对于实现嵌入式软件“白盒”测试的技术研究也成为IT领域的一大热点。利用插桩技术来实现“