面向科技项目的相似度计算和聚类算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yuhang0211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国对科技经费投入的逐渐增多,科研单位科技项目的申请也变得越来越多,怎么样有效的解决项目重复立项问题是现代科技项目管理中非常重要的一部分。传统的人工查重显然是不行的,而已有的一些查重系统在精度和速度上都不能满足要求,因此对项目查重系统关键技术的研究就变得非常有必要。本文重点对科技项目的表示模型、相似度计算和聚类等技术进行研究。主要工作包括以下几个方面:1.根据科技项目内容复杂、信息大的特点,提出一种结合物元知识表示模型和向量空间模型的科技项目知识表示模型和科技项目关系模型,方便后续对科技项目的表示和处理。2.针对科技项目的查重需求,分析总结了基于向量空间模型的相似度计算方法和基于语义理解的相似度计算方法,在此基础上提出了一种基于语义理解的VSM相似度计算方法。针对科技项目名称中含有大量有用信息,字数较少且含有较多专业名词的特点,提出了一种改进的基于编辑距离的句子相似度计算方法。最后把以上两种方法分别应用于科技项目的主要内容和项目名称的相似度计算中,并进行权重调整,综合计算整个科技项目的相似度。3.针对科技项目查重时需把待查项目和已有所有项目进行比对,效率较低的问题,本文先进行项目聚类然后再进行查重。而已有的聚类算法有需要预先输入参数和算法时间复杂度较高无法应用于大型项目库等问题,本文提出一种基于双阈值的最近邻项目聚类算法并应用于项目查重系统,在不影响查重精度的情况下,提高了查重速度。在以上相似度计算方法和聚类算法研究成果的基础上,实际应用于浙江省科技项目相似度检测系统中,有效地实现了项目查重功能,并且有良好查重准确度和运行速度,成功验证了本论文研究成果的可行性。
其他文献
随着网络传输设备的不断发展,视频点播(VOD)已经成为网络上越来越热门的网络应用。传统的视频点播服务采用的服务器/客户端(Client/Server)集中式网络模型,面临网络带宽及系
网络带宽的不断提速带动了人们对多媒体服务需求的不断提高,越来越多的媒体应用也随之不断涌现。与此同时,用户在高速网络下对应用平台的轻巧方便方面的要求也在不断提升,嵌入式
医院信息系统(HospitalInformationSystem,HIS)是我国近十年才兴起的一门新型学科,主要目标是支持医院的行政管理与事务处理业务,减轻事务处理人员的劳动强度,辅助医院管理,辅助高
具有高度真实感的三维人脸动画技术被越来越多地应用于电影制作、面部手术、远程会议等系统中,通过加入人脸表情以及对话过程中的脸部肌肉动作等细节表现,可以大大提高视频游
随着大规模存储、高性能工作站、宽带网络和数据压缩技术的迅速发展,流媒体点播服务从技术上和经济上成为可能,并大大丰富了互联网中的内容。在一个视频点播系统中,视频服务
近年来,随着全球经济的飞速发展,伴随而来的是对交通运输需求的不断增加,致使交通拥挤、事故频发、能源浪费、环境污染等交通问题日益突出。智能交通系统ITS(IntelligentTranspo
教师教学质量评价是高校每年都需要进行的一项教学考核工作,设计一套科学合理的教师教学质量评价标准,建立一个适应新情况、便捷、高效的教学质量网上评价系统,是各个高校迫切需
现实世界以及各个学科领域存在着大量的不确定现象和问题。贝叶斯网络是概率论与图论相结合的产物,它一方面用图论的语言描述问题的结构,另一方面按照概率论的原则对问题的结
本文针对医疗数据的信息孤岛[1]问题,结合现有的医疗信息特点,提出了基于数据仓库技术的医疗信息查询系统。采用数据仓库技术中的雪花模型[2]对医疗信息建立了相关知识表,例如:查
家居设计展示系统能够提供给用户一种快速、便捷的方式来打造个性化的室内布局和装修效果,在日常使用和商业应用两个方面都具有很高的价值,尤其是在近几年房地产产业火热发展的