论文部分内容阅读
朴素贝叶斯、KNN、决策树及支持向量机等方法已经应用到文本聚类中,然而专利文献数据有着大规模、不平衡、层次化、多标号的特点,导致传统的方法在解决此类问题中往往性能不佳。鉴于此,通过引进基于双高斯合成函数的最小最大模块化神经网络的监督聚类算法,来有效地修剪训练数据的规模,并将其成功应用到专利数据的聚类中,实验结果证明了并行化及监督聚类的有效性。