面向网络人物搜索的中文人名消歧

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Jeanneyli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满足人们的需求。如何以精准的方式把用户需要的信息呈现给用户已经是搜索引擎亟待解决的问题。人名消歧便是解决这一问题的核心技术。同时人名消歧在个性化搜索、自动问答、热点人物跟踪与发现等领域都有着广泛的应用。目前国内外基于人名消歧的中文人物搜索相关研究还比较少。人名消歧作为近几年刚兴起的一个热门研究方向,正受到越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧仍然存在着很多亟待解决的问题。本文在前人的研究基础上,首创利用构造三层特征空间与两阶段聚类算法相结合的策略进行中文人名消歧。本文的研究内容主要包括以下几个方面:(1)首先对数据预处理中涉及到的技术进行研究改进,分别提出了基于BK树检索的高性能大规模网页去重算法、改进了基于分布函数的网页正文抽取算法、提出了基于多重预处理与CRF相结合的中文分词算法。数据预处理将为后面的人名消歧准备所需的语料。(2)本文提出了基于三层特征空间与两阶段聚类算法相结合的中文人名消歧。在特征选择及构造方面,根据不同文本特征对于区分人物作用的不同,构建三个不同层次的特征空间,并重点研究了如何采用机器学习算法构建语义特征,语义特征空间主要包括文本的领域属性特征、情感属性特征、句法属性特征和URL特征。在聚类策略设计方法,本文采用了两阶段聚类算法。首先在全局特征空间上,利用以基本属性序列对或唯一属性构建初始聚类中心的K-means算法,对文本进行初步聚类,得到类别粒度较大的类簇。最后采用EM算法对每个类簇再进行二次聚类,得到最终聚类结果。(3)结合本文提出的算法,设计并实现了中文人物搜索系统。本文在CIPS-SIGHAN2010中文人名消歧语料集上进行多个对比实验,实验结果表明,基于三层特征空间与两阶段聚类相结合的中文人名消歧效果良好,F-score达到了94.6%,比CIPS-SIGHAN2010中文人名消歧任务中排名第一的算法高了3.09%。
其他文献
按照计算复杂性对计数问题进行分类是理论计算机科学中的一个核心主题。尽管最近几年精确计数领域有很大的进展,对于计数问题的可近似性的研究却一直都很初步,我们仅仅在一些非
人脸识别技术,具有直观、方便、快速、准确以及人机交互友好的特点,一直以来都是模式识别和机器视觉领域一个重要的研究方向。但是,可见光人脸识别在实际的应用过程中,容易受到光
RFID(Radio Frequency Identification)射频识别是一种快速、非接触、实时、低成本的物品识别方式,可以广泛应用于物体识别、跟踪,并能够与广泛的基于语义和逻辑的计算应用集
Mashup是Web2.0时代的一种典型的Web应用,它易在更方便的从多个外部资源站点中获取所需要的信息,并将这些信息有机的整合在一起,从而构建出全新的应用。它具有易用灵活,数据
在数字水印技术高速发展的情况下,数字版权保护的瓶颈体现在如何利用数字水印技术来抑制数字媒体非法扩散,以及如何保护在数字产品交易过程中参与交易的各方的合法利益上,因
国际电信联盟(International Telecommunication Union,ITU)和国际标准化组织(ISO/IEC)制定了一系列视频编码标准最新的视频编码标准H.264,以此改善视频的压缩效率和增强视频
现存的序列模式挖掘算法多是基于瞬时事件的,然而在现实世界中很多事件都是发生在一段时间内,例如语言分析,网络检测等,时间间隔事件序列频繁模式挖掘在这些领域都有很重要的
僵尸网络是攻击者出于恶意目的,传播僵尸程序控制大量主机,并通过一对多的命令与控制信道所组成的网络。传统的僵尸网络主要是基于IRC、HTTP协议的集中式结构,但近年来,越来
智能交通系统(ITS)是智能视频监控系统在现代交通领域的重要应用,代表着未来交通管理的发展趋势。基于视频的车辆检测与定位技术作为ITS的关键技术,处于ITS的底层,是整个系统
随着DT(Data Technology)时代的到来,数据的价值在各行各业中越来越得到广泛重视。如何从纷繁复杂的数据中发掘去一些有价值的信息来指导和改善我们的工作和生活具有重要的意