论文部分内容阅读
在信息爆炸的当今,文本信息呈现指数级上涨的趋势,人类徜徉在信息的海洋里。网络用户面对规模如此庞大的数据时,如何从这些数据中快速、准确地获取自己感兴趣的相关内容,是人类正面临的巨大挑战。通过人工对文本信息进行分类整理不仅成本高,而且缺乏时效性,因此采用机器学习方法进行文本挖掘成为国内外研究的热点。文本聚类是文本挖掘的关键技术之一,在自动整理文档集、搜索引擎等方面都得到广泛应用。文本聚类是一种无监督的机器学习方法,文本特征选择是文本聚类的预处理步骤之一,本文针对现有文本特征选择精度不高的问题和基于划分的文本聚类随机选取初始聚类中心导致聚类精度低的缺点分别进行改进,提出一种改进的特征选择算法和一种改进的文本聚类算法。粒计算是机器学习和文本挖掘领域处理关键问题的一种新方式,在保留数据中蕴含的价值和信息的前提下,能大幅度的降低数据的维度,是处理大规模文本数据的一种有效工具。全覆盖粒计算是粒计算的一种特例,包含全覆盖理论、信息粒化和粒度计算,为文本特征选择和文本聚类提供了一种新的思路。本文的主要研究工作有:1、提出一种基于全覆盖粒计算的文本特征选择方法,通过将特征词的位置、词频、词性因素扩展至TFIDF(Term Frequency Inverse Document Frequency)算法中,即TFIDF_SP(Term Frequency InverseDocument Frequency_Speech and Place)算法,结合bLDA(background Latent Dirichlet Allocation)主题模型计算特征词的语义信息,同时将二者线性加权,得到符合文本内容表达的特征词集,最后对特征词集进行信息粒化,进行全覆盖粒计算的知识约简,在保留文本信息不变的前提下,得到更精简的特征词集。实验表明,与其它特征选择算法相比,本文的特征选择算法得到的特征词集更符合文本表达的实际意义。2、本文提出一种基于全覆盖粒计算的K-medoids文本聚类算法,通过Singles-Pass算法对文本集进行粗聚类,利用全覆盖粒计算相关理论从粗聚类结果中选出初始聚类中心候选集,基于密度和最大最小距离理论从初始聚类中心候选集中选出初始聚类中心。实验表明,与其它改进K-medoids算法相比,本文选出的初始聚类中心更符合实际的聚类中心,因此聚类质量较好,同时结合改进的特征选择算法和改进的聚类算法,与改进的特征选择算法和传统聚类算法相结合作对比,结果表明本文的特征选择算法和聚类算法的可行性和有效性。