基于企业级语料的专家搜索系统

来源 :复旦大学 | 被引量 : 0次 | 上传用户:kevinlpr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代是一个信息时代,越来越多的企业实现了信息化管理,对一些大型企业或组织,有着大量的内部网语料,如何通过文本检索技术,自动挖掘出企业文本语料中的有用信息,受到了大家的关注。其中专家搜索是近年来的一个研究热点。对于大型企业来说,它的分公司可能遍布世界各地,有着成千上万的员工,专家搜索系统可以找到具有特定经验和技能的人,是企业非常有价值的辅助管理工具。专家搜索系统的目标是在大规模文本语料中找到在某一个领域有一定的知识和技能的人,即谁或哪些人是某个领域的专家。其关键问题就是如何建立主题—文档—专家三者之间的关系。在以往的研究中,各种信息检索技术如语言模型、社会网络、文本分类等被应用到专家搜索系统中,但都没有很好地挖掘出专家作为一个web对象的深层信息。本文在基本模型的基础上,提出了改进的专家搜索模型,从角色决定和主页挖掘两方面改善专家搜索结果。角色决定通过“角色”概念的引入,改善了文档—专家关系,主题—专家关系的描述模型。主页挖掘基于企业语料环境结构封闭性好,相关度高的特点,挖掘候选专家的简历页面信息,增加对候选专家专业领域判断的准确性。同时,为了增强搜索结果的完整性,本文将传统的面向对象的分析方式应用到web对象建模的过程中,提出了web对象的属性挖掘模型,将专家对象的完整信息返回给用户。本文的工作主要包括:●本文介绍了专家搜索的研究现状,详细介绍了基于企业级语料的专家搜索问题,指出了现有方法的局限性。●提出了“角色”的概念,通过“角色”的引入,改善了主题—文档—专家关系的描述模型。提出了专家页面挖掘,通过对特定类型网页的分析,改善专家搜索结果。●将传统的面向对象的分析方式应用到web对象建模的过程中,将单纯的网页文本加以抽取提炼成为web对象。并且提出了web对象属性挖掘模型,挖掘专家对象的属性信息。●设计和实现了一个基于企业级语料的专家搜索系统。在TREC会议2007,2008两年的企业搜索任务数据集上进行了实验,与基本模型的结果相比,各项评测指标有明显提高,显示了改进专家搜索模型的优越性和适用性。同时给出了属性挖掘模型的实验,实验证明了该模型的有效性。
其他文献
随着计算机网络的空前发展,带宽已经成为制约其发展的一个瓶颈。而光纤由于其传输频带宽,通信容量大,损耗低,电磁干扰小,质量轻等优点,已经成为现在网络中最主要的一种传输介质。因
随着电子商务的迅速发展,网络上涌现了许多购物网站和产品论坛,这些购物网站和产品论坛不只介绍商家的产品,还为消费者提供了发表评论的平台,消费者能及时的将对商品的评论反馈给
随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。虽然虚拟实验教学系统的研究与开发已经步入成熟,但是目前
近年来,物联网和移动通信技术的不断发展,使得人们对于基于位置服务的需求日益迫切。随着GPS卫星定位技术的广泛应用,其在室内环境中定位的缺陷显得越来越明显,基于近距离无
随着计算机技术的飞速发展,人们对计算机的需求和依赖与日俱增。计算机软件的应用领域正在进一步的扩大,伴随而来的就是软件的规模和复杂性的不断增加,这给软件测试提出了更
电子商务经过多年的发展,给商务企业带来了丰厚的利润和无限的商机,在整个商业活动中已具有举足轻重的作用。然而,电子商务所使用的技术普遍陈旧,大多停留在静态服务的层面上
资源配置是综合模块化航空电子系统(IMA)设计的重要环节,配置信息的安全性分析是保障整个航空电子系统安全性的关键。传统的安全性分析方法得到的结果往往不能展示其安全性属
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互技术已成为当前计算机科学领域一个十分活跃的研究课题。语音信号和面部表情一样,传递着情感信息。语音情感识
在程序设计和数据结构算法的教学中,算法的抽象性使学生难以理解其实质。算法演示可以辅助教师生动形象地教学,并帮助学生高效而轻松地掌握算法的设计原理和执行过程。本文在
远程实时监控软件是计算机取证中的一个重要组成部分,但在植入远程实时监控软件时往往会受到虚拟还原软件的干扰。因此,研究虚拟还原穿透技术对于计算机网络隐蔽取证具有重要