基于加权网络的文献聚类与领域研究创新演化

来源 :山西大学 | 被引量 : 0次 | 上传用户:bulocom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的普遍与发展,世界进入了信息爆炸时代,计算并分析大规模密集型科学数据已成为数据挖掘的新趋势,而文本挖掘作为数据挖掘的主要方面,也已经成为知识发现的新方法。传统的文本信息挖掘方法依赖于大规模的语料库和完备的知识库,增加了文本信息挖掘的难度。近年来,很多学者利用复杂网络表征文本,克服了传统文本信息挖掘方法的缺点。为了更准确的挖掘文本信息,本文以文献为文本基准数据集,基于加权复杂网络从文本的摘要和关键词两方面入手,对文本聚类及领域研究主题的创新演化规律进行研究。首先,从文本摘要入手挖掘文本信息,度量文本之间的语义相似性,从而对文本进行聚类。考虑到文本摘要比较短小,属于短文本范畴,在基于复杂网络的短文本相似性(STSim)度量模型基础上,根据共现理论,进一步考虑摘要中词语的权重信息,提出了一种新的基于加权复杂网络的短文本相似性度量模型用于计算摘要相似性。该模型首先通过词语的共现关系和共现频次构建加权短文本复杂网络,再用改进的节点权重度算法来提高词语共现次数的识别度,从而计算每个词语的加权综合特征值,得到每篇文本摘要的相似性。最后,将文本摘要相似性直接移植到文本对文本进行聚类。文本聚类,只是将文本按主题进行了分类,深度挖掘每一类簇的潜在文本信息,掌握该领域的文本发展趋势也至关重要。文章从文本的关键词入手,把握该领域研究主题的创新演化规律,从而掌握该领域的发展趋势。首先通过关键词之间的共现关系和共现频次构建加权关键词共现网络(W-KCNs),在Huajiao Li等人定义的创新系数基础上考虑权重,定义了一个新的计量指标:加权创新系数,用以测量加权复杂网络的创新度。并引入与加权网络相关的计量指标(平均加权最近邻度),结合统计和可视化分析深入挖掘“人工智能”研究领域的拓扑特征和演化规律。实验结果表明,本文提出的基于加权复杂网络的短文本相似性度量模型的聚类效果优于STSim模型,聚类纯度、聚类F度量值分别较STSim模型平均提高了15.84%和12.02%,聚类熵值降低了16.23%;与创新系数的变化趋势相比,加权创新系数能更准确的描述人工智能领域2006年到2017年关键词的创新度及主题随时间的演化趋势。
其他文献
研究区位于内蒙古自治区兴安盟地区,隶属华北板块之宝音图-锡林浩特火山型被动陆缘——乌兰浩特-林西晚古生代裂谷带,处于新华夏构造体系大兴安岭隆起带的东缘,以嫩江断裂为
矿工的不安全行为是导致煤矿安全事故发生的最主要原因,因此,从矿工行为出发,对煤矿安全生产进行治理与改善,是解决煤矿安全问题的根本途径之一。随着物联网技术与人工智能的
在“新通道”设计与社会创新项目近十年的发展历程中,影像被赋予为项目传播与交流的重要手段作用,基于项目要求摄制大量极具地域文化特色的影像作品。影像作为记录非遗文化最
棒曲霉素(patulin,PAT)是一种对人类健康造成极大威胁的真菌毒素,普遍存在于水果及其制品中,在苹果及其制品中的污染尤为严重。利用微生物法降解棒曲霉素以其经济、安全、高
大数据时代下,在生产实践中获取的属性越来越多。一部分属性可能是冗余的或与分类任务无关,在进一步数据处理之前需要将它们删除。特征选择(也称为属性约简)是一种用于减少特
人体姿态估计是图像分析和行为识别的重要基础,通过对图像中人体关节点位置的检测,用于后续对图像内容的辅助理解。随着电子设备的不断智能化,人体的行为分析越来越多的被用
附在基材上的导电薄膜(导电涂层)被广泛应用于抗静电、电磁屏蔽、金属防防腐蚀以及电子设备等领域。然而,目前石墨烯基导电涂层在制备过程中往往需要用到合成树脂类材料做胶
摆动转子压缩机是滚动转子压缩机的孪生结构,随着制冷工质的发展,研究人员发现摆动转子压缩机具有承受更大压力差的优点,比滚动转子压缩机具有更明显的优势,因此在部分空调压
喇嘛甸油田一类油层聚合物驱已全面转入后续水驱,2007年10月开始,通过对二类油层高浓度聚合物驱的推广,通过对油水井近几年的油水井精细调整和实践,我厂北东块几个二类油层高
共轭亚油酸(Conjugated linoleic acid,CLA)是一系列具有共轭双键的十八碳二烯酸。作为一种新型的具有广泛生物活性的功能性脂肪酸而备受关注。目前,CLA的规模化生产主要利用