论文部分内容阅读
随着互联网技术的普遍与发展,世界进入了信息爆炸时代,计算并分析大规模密集型科学数据已成为数据挖掘的新趋势,而文本挖掘作为数据挖掘的主要方面,也已经成为知识发现的新方法。传统的文本信息挖掘方法依赖于大规模的语料库和完备的知识库,增加了文本信息挖掘的难度。近年来,很多学者利用复杂网络表征文本,克服了传统文本信息挖掘方法的缺点。为了更准确的挖掘文本信息,本文以文献为文本基准数据集,基于加权复杂网络从文本的摘要和关键词两方面入手,对文本聚类及领域研究主题的创新演化规律进行研究。首先,从文本摘要入手挖掘文本信息,度量文本之间的语义相似性,从而对文本进行聚类。考虑到文本摘要比较短小,属于短文本范畴,在基于复杂网络的短文本相似性(STSim)度量模型基础上,根据共现理论,进一步考虑摘要中词语的权重信息,提出了一种新的基于加权复杂网络的短文本相似性度量模型用于计算摘要相似性。该模型首先通过词语的共现关系和共现频次构建加权短文本复杂网络,再用改进的节点权重度算法来提高词语共现次数的识别度,从而计算每个词语的加权综合特征值,得到每篇文本摘要的相似性。最后,将文本摘要相似性直接移植到文本对文本进行聚类。文本聚类,只是将文本按主题进行了分类,深度挖掘每一类簇的潜在文本信息,掌握该领域的文本发展趋势也至关重要。文章从文本的关键词入手,把握该领域研究主题的创新演化规律,从而掌握该领域的发展趋势。首先通过关键词之间的共现关系和共现频次构建加权关键词共现网络(W-KCNs),在Huajiao Li等人定义的创新系数基础上考虑权重,定义了一个新的计量指标:加权创新系数,用以测量加权复杂网络的创新度。并引入与加权网络相关的计量指标(平均加权最近邻度),结合统计和可视化分析深入挖掘“人工智能”研究领域的拓扑特征和演化规律。实验结果表明,本文提出的基于加权复杂网络的短文本相似性度量模型的聚类效果优于STSim模型,聚类纯度、聚类F度量值分别较STSim模型平均提高了15.84%和12.02%,聚类熵值降低了16.23%;与创新系数的变化趋势相比,加权创新系数能更准确的描述人工智能领域2006年到2017年关键词的创新度及主题随时间的演化趋势。