基于学术文献同被引分析的K-means算法改进研究

来源 :情报学报 | 被引量 : 0次 | 上传用户:yangglan2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K—means算法是一种应用广泛的聚类算法,但是存在初始聚类中心和K值选取的难题。本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K—means改进算法。该算法属于两步聚类算法,首先对学术文献进行同被引分析,得到同被引矩阵,然后基于同被引矩阵进行层次聚类。算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差,当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值,并且将此时的类中心作为第二步K—means算法的初始聚类中心。第二步聚类则依据文献内容实现
其他文献
高校已经成为国家科技创新体系中的重要组成部分,随着科研活动集体化趋势不断增强,高校之间的科研合作日益增多,有关高校科研合作问题的研究具有重要的理论价值和现实意义。本文
在近年来国内外经济环境持续恶化以及国家对预算大力倡导的大背景下,全面预算管理已成为大多数企业提高资源的配置效率、加强运营风险管控、优化整体运行流程重要工具。基于
用户兴趣模型的建立和维护是个性化推荐服务系统研究和开发中的一个关键问题。细粒度兴趣通过在用户兴趣特征集中区分用户的不同兴趣主题类别来发现,是对粗粒度用户兴趣的进
国务院国资委主任肖亚庆日前在全国两会上回答“国有企业改革发展”相关问题时表示,要按照政府工作报告的要求,通过改革创新,让国企走在高质量发展前列。
互联网和信息技术的发展,为客户在线分享他人的购物经历提供了新机会。在线客户评论(OCR)对消费者的购买决策和企业的声誉管理都有着十分重要的价值,然而,如何聚合利用OCR是个很大
在中国,情报思想可以追溯到《孙子兵法》。《孙子兵法》中阐述了诸多情报思想,特别是“知彼知已,百战不殆”,这一思想强调了掌握敌方与己方双方情况的重要性。《辞海》中关于情报
近日,黄浦区召开分项计量及需求侧管理培训,企业天地、日月光中心等24家楼宇负责人参加。会上,各参会楼宇汇报了分项计量使用情况及升级建议。腾天节能对分项计量移动端功能作了
恶性肿瘤又称癌症,是由于细胞发生突变后,分裂分化不再受身体控制而产生的疾病,一般采取手术治疗的方式。新型药物美罗华在治疗过程中大量使用,但美罗华具有较大的副作用,在
高血压病是老年人的常见病,多发病,是脑出血、脑梗死、冠心病、心肾功能衰竭的主要致病因素[1],常常危害人体健康.如何有效控制血压,防止并发症是医学界广泛研究的问题.
大众分类是Web2.0环境下产生的一种新型信息分类法,标签是其中的核心要素,但标签的多样性、模糊性、结构扁平化等缺陷严重影响了信息检索的效率。本文以“豆瓣读书”为例,通过分