面向网络人物搜索的中文人名消歧

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：Jeanneyli

【摘要】

：

随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满

【作者】

：

沈剑平

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2010年期

【关键词】

：

人名消歧聚类特征空间人物搜索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满足人们的需求。如何以精准的方式把用户需要的信息呈现给用户已经是搜索引擎亟待解决的问题。人名消歧便是解决这一问题的核心技术。同时人名消歧在个性化搜索、自动问答、热点人物跟踪与发现等领域都有着广泛的应用。目前国内外基于人名消歧的中文人物搜索相关研究还比较少。人名消歧作为近几年刚兴起的一个热门研究方向,正受到越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧仍然存在着很多亟待解决的问题。本文在前人的研究基础上,首创利用构造三层特征空间与两阶段聚类算法相结合的策略进行中文人名消歧。本文的研究内容主要包括以下几个方面:(1)首先对数据预处理中涉及到的技术进行研究改进,分别提出了基于BK树检索的高性能大规模网页去重算法、改进了基于分布函数的网页正文抽取算法、提出了基于多重预处理与CRF相结合的中文分词算法。数据预处理将为后面的人名消歧准备所需的语料。(2)本文提出了基于三层特征空间与两阶段聚类算法相结合的中文人名消歧。在特征选择及构造方面,根据不同文本特征对于区分人物作用的不同,构建三个不同层次的特征空间,并重点研究了如何采用机器学习算法构建语义特征,语义特征空间主要包括文本的领域属性特征、情感属性特征、句法属性特征和URL特征。在聚类策略设计方法,本文采用了两阶段聚类算法。首先在全局特征空间上,利用以基本属性序列对或唯一属性构建初始聚类中心的K-means算法,对文本进行初步聚类,得到类别粒度较大的类簇。最后采用EM算法对每个类簇再进行二次聚类,得到最终聚类结果。(3)结合本文提出的算法,设计并实现了中文人物搜索系统。本文在CIPS-SIGHAN2010中文人名消歧语料集上进行多个对比实验,实验结果表明,基于三层特征空间与两阶段聚类相结合的中文人名消歧效果良好,F-score达到了94.6%,比CIPS-SIGHAN2010中文人名消歧任务中排名第一的算法高了3.09%。

其他文献

计数问题的近似算法

按照计算复杂性对计数问题进行分类是理论计算机科学中的一个核心主题。尽管最近几年精确计数领域有很大的进展，对于计数问题的可近似性的研究却一直都很初步，我们仅仅在一些非

学位

近似计数Holant问题加权边覆盖马尔科夫链蒙特卡洛

热红外人脸识别特征提取方法研究

人脸识别技术，具有直观、方便、快速、准确以及人机交互友好的特点，一直以来都是模式识别和机器视觉领域一个重要的研究方向。但是，可见光人脸识别在实际的应用过程中，容易受到光

学位

人脸识别特征提取韦伯局部描述算子抗干扰能力边缘多方向二值模式

基于统计推断的RFID数据清洗技术

RFID(Radio Frequency Identification)射频识别是一种快速、非接触、实时、低成本的物品识别方式,可以广泛应用于物体识别、跟踪,并能够与广泛的基于语义和逻辑的计算应用集

学位

统计推断射频识别数据清洗稀疏模式后验概率

数据缓存技术在Mashup中的应用研究

Mashup是Web2.0时代的一种典型的Web应用,它易在更方便的从多个外部资源站点中获取所需要的信息,并将这些信息有机的整合在一起,从而构建出全新的应用。它具有易用灵活,数据

学位

MashupWeb2.0Web缓存缓存替换

基于权限交易的数字水印保护协议的研究与设计

在数字水印技术高速发展的情况下,数字版权保护的瓶颈体现在如何利用数字水印技术来抑制数字媒体非法扩散,以及如何保护在数字产品交易过程中参与交易的各方的合法利益上,因

学位

权限水印数字水印协议版权追踪权限信息保护

基于H.264运动估计块匹配算法研究

国际电信联盟(International Telecommunication Union,ITU)和国际标准化组织(ISO/IEC)制定了一系列视频编码标准最新的视频编码标准H.264,以此改善视频的压缩效率和增强视频

学位

运动估计搜索模板视频图像编码器

基于时间间隔的事件序列频繁模式挖掘算法研究

现存的序列模式挖掘算法多是基于瞬时事件的,然而在现实世界中很多事件都是发生在一段时间内,例如语言分析,网络检测等,时间间隔事件序列频繁模式挖掘在这些领域都有很重要的

学位

时间间隔事件序列频繁模式挖掘算法改进策略

中小型局域网中P2P僵尸网络的检测

僵尸网络是攻击者出于恶意目的,传播僵尸程序控制大量主机,并通过一对多的命令与控制信道所组成的网络。传统的僵尸网络主要是基于IRC、HTTP协议的集中式结构,但近年来,越来

学位

网络安全P2P僵尸网络恶意程序异常检测

智能交通系统中视频车辆检测与定位技术研究

智能交通系统(ITS)是智能视频监控系统在现代交通领域的重要应用,代表着未来交通管理的发展趋势。基于视频的车辆检测与定位技术作为ITS的关键技术,处于ITS的底层,是整个系统

学位

智能交通图像增强算法混合高斯背景建模最大类间方差法区域生长

基于部分先验知识的社区发现算法研究

随着DT(Data Technology)时代的到来,数据的价值在各行各业中越来越得到广泛重视。如何从纷繁复杂的数据中发掘去一些有价值的信息来指导和改善我们的工作和生活具有重要的意

学位

社区发现部分先验知识标签传播局部回路数据集

面向网络人物搜索的中文人名消歧

其他学术论文