论文部分内容阅读
专利信息反映了最新的科技发展水平,具有内容新颖、覆盖面广、实用可靠、信息量大等显著优点,对于国家政府机构的决策、科技项目的规划、技术创新资源的配置、行业的发展方向、企业的经营决策等各方面都体现着巨大的价值。传统的统计定性分析方法已经不能满足人们开发利用专利信息资源的方法需求,集成了多种学科技术的数据挖掘成为了专利信息分析法的必然发展趋势。由于专利信息的文本性,作为数据挖掘技术手段之一的文本聚类有着非常广泛的应用前景。
文本聚类首先需要对文本进行预处理,通过分词、特征选择或特征抽取等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。k-means算法由于操作简单、容易实现且时间效率高等优点是一种最常见经典的文本聚类算法。而且,对初始值的依赖性和对噪声数据的敏感性等不足使得k-means算法的改进研究具有很大的发展空间。
本文采用了创新计算动力学及其联想组合定律作为k-means算法研究的指导思想,提出了两种不同的改进算法。一种是基于对立联想组合创新模式的k-means算法组合,即通过一种用于优化聚类结果的局部搜索算法将两种分别采用不同相似度计算公式的k-means算法串联组织起来,使得先运行的k-means算法和局部搜索算法尽可能为后运行的k-means算法提供较好的初始划分结果,取长补短;另一种是基于信息域组合创新模式的k-means算法改进,即通过定义一种距离公式用于计算数据对象与聚类中心的相对距离,在划分过程中动态调整聚类中心,降低了算法对初始值的依赖性和对噪声数据的敏感性,提高了聚类质量。