基于WEB的专家数据库建立方法研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：sxj007

【摘要】

：

科技专家库的建设和完善对于科研工作者、相关企业来说至关重要。建立一个标准、规范、高效的科技专家库并投入使用,不仅对企业和个人完成科技研发、项目开发等工作有较大的

【作者】

：

陈奕男

【出处】

：

华南理工大学

【发表日期】

：

2017年期

【关键词】

：

专家数据库信息抽取实体消歧

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

科技专家库的建设和完善对于科研工作者、相关企业来说至关重要。建立一个标准、规范、高效的科技专家库并投入使用,不仅对企业和个人完成科技研发、项目开发等工作有较大的推动作用,同时也能促进和优化科技资源和科技人才的合理配置。当前国内建立专家库的方法存在着较大的局限。一方面,专家信息的录入依赖于专家本人的主动申请或注册,这导致所建立的专家库存在专家数量少、专家信息不全面等问题;另一方面,大部分专家库的信息更新依赖于人工维护以及专家的主动更新,导致这类专家库中的信息准确度、时效性难以保证,从而影响整个专家库的可靠性。为了解决以上问题,本文设计和实现了一套基于WEB的专家数据库建立方法。该方法使用爬虫从互联网抓取专家数据;利用专家信息提取模块将来自多种数据源的非结构化数据转化为格式统一的结构化数据;最后利用专家数据实体消歧,进一步减少数据库中的重复信息和错误信息,从而提高整个数据库的可靠性和查询效率。该方法的使用将大大方便科研工作者、相关企业对专家数据的获取和分析,具有较大的商业价值。论文的主要工作如下:(1)提出一种基于层次分类的专家库系统的设计传统的数据库设计采用统一的存储方式和分类方式对数据进行存放和处理,很难满足数据来源复杂、数据类型多的应用需求,所提出的基于层次分类的专家数据库可以有效解决数据来源和数据处理的问题,并具有良好的可扩展性。(2)研究并设计了一种从文本中提取专家数据的方法本文设计了一种从文本中提取人物实体信息的方法。该方法将自然语言的、非结构化的文本数据,转化为具有严谨格式的的结构化数据,同时,解决了传统分词算法分词结果不佳、不能提取人物活动信息的局限,能较准确地从文本中识别并获取专家基本信息、活动信息和领域信息。(3)研究并设计了一种专家数据实体消歧的方法专家数据实体消歧用于对专家库中已有的数据进行消歧,去除其中的重复信息和矛盾信息,提高数据可靠性和查询效率。本文设计的基于专家画像的实体消歧法,可以有效识别记录是否为描述同一个专家的信息,并将描述同一个专家的信息合并。

其他文献

新闻也需要“策划”

说到＂策划＂,人们自然会联想到市场营销策划、文艺演出策划,公关策划以及一些更高层次意义上策划,如外交策划、战争策划、谈判策划等。其实,我们新闻报道也需要策划,尤其是在新

期刊

市场营销策划新闻报道新闻策划文艺演出公关策划新闻媒体新闻竞争编采人员

浅议石油企业思想政治工作的创新之策

在石油企业发展的几十年过程中。思想政治工作为石油企业的发展的贡献是功不可没的．这主要是源于石油企业对思想政治工作重视的传统。然而，在最近几年中，员工思想、生活、诉求等

期刊

思想政治工作石油企业创新企业发展员工思想多元化

输电线路一体化监测装置电源系统研究

研究了输电线路走廊范围各种可能的取能方式及其低功耗电源管理技术,提出了基于镁基蓄电池、太阳能、高低电位感应取能及势能取电相结合的稳定供电取能方式,以及动态电源管理

期刊

电源取能低功耗管理监测装置输电线路power supply energy obtaining low - power management mon

不同抗凝药物联合中药用于COPD合并肺动脉高压治疗的效果观察

目的:观察华法林和肝素联合中药用于COPD合并肺动脉高压治疗的效果。方法:随机选取我院2014年5月至2016年5月收治的COPD合并肺动脉高压患者80例,依据不同抗凝药物将这些患者

期刊

抗凝药物中药COPD合并肺动脉高压效果

基于粒子群算法的负荷模型参数辨识研究

针对负荷模型的稳定性直接影响电力系统分析计算的可靠程度问题，提出了将粒子群算法与分散协调控制相结合的负荷模型参数辨识方法。该负荷模型参数辨识方法根据负荷节点的电压

期刊

粒子群算法负荷模型参数辨识协调控制仿真分析particle swarm algorithmload modelparameter identiifca

基于WEB的专家数据库建立方法研究与实现

其他学术论文