论文部分内容阅读
科技专家库的建设和完善对于科研工作者、相关企业来说至关重要。建立一个标准、规范、高效的科技专家库并投入使用,不仅对企业和个人完成科技研发、项目开发等工作有较大的推动作用,同时也能促进和优化科技资源和科技人才的合理配置。当前国内建立专家库的方法存在着较大的局限。一方面,专家信息的录入依赖于专家本人的主动申请或注册,这导致所建立的专家库存在专家数量少、专家信息不全面等问题;另一方面,大部分专家库的信息更新依赖于人工维护以及专家的主动更新,导致这类专家库中的信息准确度、时效性难以保证,从而影响整个专家库的可靠性。为了解决以上问题,本文设计和实现了一套基于WEB的专家数据库建立方法。该方法使用爬虫从互联网抓取专家数据;利用专家信息提取模块将来自多种数据源的非结构化数据转化为格式统一的结构化数据;最后利用专家数据实体消歧,进一步减少数据库中的重复信息和错误信息,从而提高整个数据库的可靠性和查询效率。该方法的使用将大大方便科研工作者、相关企业对专家数据的获取和分析,具有较大的商业价值。论文的主要工作如下:(1)提出一种基于层次分类的专家库系统的设计传统的数据库设计采用统一的存储方式和分类方式对数据进行存放和处理,很难满足数据来源复杂、数据类型多的应用需求,所提出的基于层次分类的专家数据库可以有效解决数据来源和数据处理的问题,并具有良好的可扩展性。(2)研究并设计了一种从文本中提取专家数据的方法本文设计了一种从文本中提取人物实体信息的方法。该方法将自然语言的、非结构化的文本数据,转化为具有严谨格式的的结构化数据,同时,解决了传统分词算法分词结果不佳、不能提取人物活动信息的局限,能较准确地从文本中识别并获取专家基本信息、活动信息和领域信息。(3)研究并设计了一种专家数据实体消歧的方法专家数据实体消歧用于对专家库中已有的数据进行消歧,去除其中的重复信息和矛盾信息,提高数据可靠性和查询效率。本文设计的基于专家画像的实体消歧法,可以有效识别记录是否为描述同一个专家的信息,并将描述同一个专家的信息合并。