汉语人名消歧算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jij0tl81f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名歧义是一种实体对象的身份不确定的现象,是自然语言处理领域中的一个重要问题。随着全球互联网技术的发展以及大数据时代的来临,越来越多的互联网应用已经步入历史舞台。随着这些应用的兴起以及研究的深入,人名的实体指向在诸多新的应用领域中已经起到了至关重要的作用,包括在搜索引擎、社会网络和人名知识库构建等领域。目前,越来越多的应用都本着以人为本和私人定制的宗旨服务大众,因此如何有效地消除由于人名相同带来的歧义已经成为国内外非常重要的研究课题,而国内汉语人名歧义的研究也面临着巨大的挑战。所以本文的研究内容是旨在找到一套模型和算法,能够行而有效的消除文本信息中的人名歧义。本文人名消歧算法的主要研究思路,首先通过对包含有指定人名的文本提取出文本的关键词特征,利用这些文本的关键词特征通过算法进行比对来辨别文本间的相似性。根据文本特征的相似性来判断在不同的文本间出现的相同人名是否指向同一实体对象,从而实现人名歧义的消除。具体做法是利用TF-IDF算法对文本提取出来带有权重的关键词,生成文本的特征向量。利用TF-IDF算法能够有效地将词频与逆文档词频相结合,既反映出词语的反复出现的重要性也能够降低常用词的重要性。在对不同的特征向量利用空间向量的余弦定理的公式,计算出不同的特征向量间的相似性,并且利用向量间夹角的大小来判断人名歧义。实验过程中的算法设计从简单到复杂,在进一步对算法的特性和特征进行讨论之后,提出了算法的改进策略。提出了多特征融合的向量集、特征向量集的规范化修正、文本特征的向量内特征方向上增强以及多证据联合的相似性判断等一系列手段之后,进一步利用余弦相似性将一些文本的其它辅助特征融合到人名消歧算法中,形成了一种可扩展的补充。本文的实验过程中对于提出的人名消歧算法采用循序渐进,逐步对设计的算法进行完善和改进。经过实验结果表明,利用对文本生成的特征向量通过余弦相似性算法的特征比较,能够较为有效地实现人名消歧的目的。同时也提出了今后的改进方向,可以加入环境语境语义对文本特征的影响,从而可以完善本文的人名消歧算法。
其他文献
文章主要围绕BIM技术在预制装配建筑体系内部的应用进行叙述,分别对其在预制装配建筑设计工作、构件的生产工作以及施工管理工作方面的应用进行了详细分析,希望相关人员能够
<正>宽容的力量无法估量,信任的力量让人温暖。人才的成长,两种力量必不可少。最近,建筑界的"诺贝尔奖"普利兹克奖,第一次把奖章颁给了中国建筑师——49岁的中国美术学院教授
目的探讨肝硬化失代偿期患者的护理要点。方法对50例肝硬化失代偿期患者进行回顾性分析。结果本组病例恢复快,预后较好,无严重并发症。50例均好转出院。结论对肝硬化失代偿期
当前的内部审计更多的是关注本企业内部的财务、经营以及管理活动,较少涉及与本企业利益攸关的上下游关系企业。本文就开展对上下游关系企业延伸审计的必要性,操作特点以及风险
连续6个交易日涨停,让张家港行(002839)从最不赚钱的新股一举“逆袭”成为A股的当红“妖王”,在部分参与炒作的投资者豪赚一笔的同时,张家港行遭遇爆炒也带给市场各方更多的冷思考
报纸
小儿先天性斜颈又称小儿肌性斜颈、原发性斜颈,我科采用综合康复手段予以治疗,取得满意效果,报道如下.
针对北京地区空气源热泵散热器供暖系统进行了实测研究,对系统运行期间的各房间空气温度、机组供回水温度及散热器表面温度、系统供热量、耗电量进行了实测。测试结果表明,该
多灶性运动神经病(muhifocal motor neuropathy,MMN)是一种由免疫介导的,主要累及运动纤维的多灶性运动神经病。主要表现为缓慢进展的、非对称性的肢体无力,以上肢受累多见,且远端
应激是对外部环境刺激产生的反应,仔猪断奶应激综合症是指仔猪断奶时因各种应激因素导致仔猪免疫力低下、腹泻、水肿、成活率低,影响仔猪正常的生长发育等。文章从发生原因及