论文部分内容阅读
专家信息的挖掘对建立全国性的专家信息服务平台尤为重要。论文通过对专家所发表的论文,承担的课题等非结构化数据进行挖掘,来自动判别出专家的知识领域。论文在研究分析中文文本预处理的基础上,结合中文文本挖掘过程,研究文本挖掘框架的层次性,建立了专家知识领域自动判别系统的框架结构,并设计出框架结构中各个模块的接口,重点研究了模糊聚类算法。为了能准确地判断出训练集的最佳聚类数,本文通过深入分析多种聚类有效性评价指标函数的“紧凑度”和“分离度”,综合这些有效性函数的优点,对模糊聚类的线性有效性指标函数进行改进,使紧凑度和分离度更加明显。此外,由于文本数据维数高且零值多,相异性不明显,聚类效果不好,论文分析模糊属性均值算法和核技术,把核方法用于模糊属性均值算法中,给出了基于核的模糊属性均值算法。在标准数据中进行实验,表明改进后的指标函数能更加稳定的判断出最佳聚类数,改进后的模糊属性均值算法的准确率和抗噪能力得到提高。并把改进后的指标函数和改进后的算法应用于专家知识领域自动判别系统框架的聚类模块中,提高了文本聚类的查准率和查全率。