基于学术文献同被引分析的K-means算法改进研究

来源 :情报学报 | 被引量 : 0次 | 上传用户：yangglan2

【摘要】

：

K—means算法是一种应用广泛的聚类算法，但是存在初始聚类中心和K值选取的难题。本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K—means改进算法。该算法属

【作者】

：

吴夙慧成颖郑彦宁潘云涛

【机构】

：

南京大学信息管理系,中国科学技术信息研究所

【出处】

：

情报学报

【发表日期】

：

2012年1期

【关键词】

：

K—means算法 K值初始聚类中心同被引文献聚类 K-means algorithm number of clusters initial clus

【基金项目】

：

本文得到国家社科基金项目“中文学术信息检索系统相关性集成研究”（项目批准号：10CTQ027）,教育部人文社会科学研究规划基金项目“面向用户的相关性标准及其应用研究”（项目批准号：07JA870006）,中国科学技术信息研究所合作研究项目的资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

K—means算法是一种应用广泛的聚类算法，但是存在初始聚类中心和K值选取的难题。本文提出了一种基于学术文献同被引分析的初始聚类中心和K值选取的K—means改进算法。该算法属于两步聚类算法，首先对学术文献进行同被引分析，得到同被引矩阵，然后基于同被引矩阵进行层次聚类。算法记录每次迭代过程中被聚为一类的学术文献间的距离以及两次迭代间的距离差，当两次迭代的距离差取得最大值时取其聚类数作为第二步K-means算法的K值，并且将此时的类中心作为第二步K—means算法的初始聚类中心。第二步聚类则依据文献内容实现

其他文献

我国“985工程＂高校科研合作网络研究

高校已经成为国家科技创新体系中的重要组成部分，随着科研活动集体化趋势不断增强，高校之间的科研合作日益增多，有关高校科研合作问题的研究具有重要的理论价值和现实意义。本文

期刊

科研合作合作关系社会网络分析合著scientific collaboration collaboration relationship social n

全面预算管理体系优化研究——以ZD石油技术股份有限公司为例

在近年来国内外经济环境持续恶化以及国家对预算大力倡导的大背景下,全面预算管理已成为大多数企业提高资源的配置效率、加强运营风险管控、优化整体运行流程重要工具。基于

期刊

全面预算管理预算预警ERP系统

基于领域本体的细粒度用户兴趣建模研究

用户兴趣模型的建立和维护是个性化推荐服务系统研究和开发中的一个关键问题。细粒度兴趣通过在用户兴趣特征集中区分用户的不同兴趣主题类别来发现,是对粗粒度用户兴趣的进

期刊

个性化服务用户兴趣细粒度兴趣领域本体personalized service user preference fine-grained preferen

肖亚庆：国企要走在高质量发展前列

国务院国资委主任肖亚庆日前在全国两会上回答“国有企业改革发展”相关问题时表示，要按照政府工作报告的要求，通过改革创新，让国企走在高质量发展前列。

期刊

质量发展国企企业改革发展政府工作报告改革创新国资委国务院国有

基于DOC视角的在线客户评论加工模型研究

互联网和信息技术的发展，为客户在线分享他人的购物经历提供了新机会。在线客户评论（OCR）对消费者的购买决策和企业的声誉管理都有着十分重要的价值，然而，如何聚合利用OCR是个很大

期刊

在线客户评论加工模型需求序化中心化online customer reviews processing model demanding orde

情报实践之本源

在中国，情报思想可以追溯到《孙子兵法》。《孙子兵法》中阐述了诸多情报思想，特别是“知彼知已，百战不殆”，这一思想强调了掌握敌方与己方双方情况的重要性。《辞海》中关于情报

期刊

情报思想《孙子兵法》本源实践《辞海》强调

黄浦区召开分项计量及需求侧管理培训

近日，黄浦区召开分项计量及需求侧管理培训，企业天地、日月光中心等24家楼宇负责人参加。会上，各参会楼宇汇报了分项计量使用情况及升级建议。腾天节能对分项计量移动端功能作了

期刊

需求侧管理黄浦区计量培训国际经验能源体系能源管理绿色发展

美罗华治疗恶性肿瘤的护理对策

恶性肿瘤又称癌症,是由于细胞发生突变后,分裂分化不再受身体控制而产生的疾病,一般采取手术治疗的方式。新型药物美罗华在治疗过程中大量使用,但美罗华具有较大的副作用,在

期刊

美罗华恶性肿瘤系统性护理

社区健康教育对高血压患者的影响

高血压病是老年人的常见病,多发病,是脑出血、脑梗死、冠心病、心肾功能衰竭的主要致病因素[1],常常危害人体健康.如何有效控制血压,防止并发症是医学界广泛研究的问题.

期刊

社区健康教育高血压患者心肾功能衰竭高血压病致病因素人体健康控制血压常见病老年人多发病脑出血脑梗死冠心病并发症

大众分类体系中标签概念空间的构建研究

大众分类是Web2．0环境下产生的一种新型信息分类法，标签是其中的核心要素，但标签的多样性、模糊性、结构扁平化等缺陷严重影响了信息检索的效率。本文以“豆瓣读书”为例，通过分

期刊

大众分类标签标签概念空间folksonomy tag tag concept space

基于学术文献同被引分析的K-means算法改进研究

与本文相关的学术论文