论文部分内容阅读
随着互联网的普及与发展,人们在各种网络平台上获取、生产信息。各大网络平台中随之积累了大量的Web短文本数据,这些Web短文本中蕴藏着丰富的信息,如何从中挖掘信息具有重要的研究意义。文本聚类是一种自动化的数据挖掘技术,其将文本集中相似的文本聚成一类,在此基础上从文本类簇中提取信息,可以使人迅速的发现文本集中蕴含的各种话题和领域信息。与传统的长文本聚类不同,短文本具有文本简短、内容碎片化以及增长迅速等特点。本文根据短文本的特点,提出了针对短文本的聚类方法以及类簇信息提取方法。具体研究内容如下:(1)提出了一种CO-TF-IDF特征词权重计算方法。CO-TF-IDF在传统TF-IDF权重计算方法的基础上,增加了基于词共现关系的关联语义权重,强化了特征词之间的关联语义信息,提高了聚类质量。(2)采用潜在语义分析方法进行文本特征降维和冗余信息过滤,同时也克服了向量空间模型无法处理同义和多义现象的缺点。(3)实际短文本聚类场景中存在着大量的噪音文本(没有主题归属的文本),且较难事先确定类簇数。针对这两个问题,本文提出了一种改进的粗糙集聚类算法(CSUAP算法)来进行短文本聚类。CSUAP算法在原算法(CSUA算法)的基础上加入了噪音文本数据的过滤以及上近似集的迭代合并过程。(4)对于聚类后得到的短文本类簇,提出了一种代表文本和关键词标签相结合的类簇信息提取方法。首先基于Text Rank算法的排序结果来提取类簇中的代表文本,然后从代表文本中提取出综合权值最大的关键词作为类簇的标签。词标签可以使人迅速的了解类簇主题信息,在此基础上结合代表文本所提供的语境信息,使得类簇信息的提取结果更易理解。(5)最后,基于本文提出的短文本聚类和类簇信息提取方法,设计并实现了一个可视化的短文本聚类分析系统,该系统可对收集到的短文本数据集进行聚类并提取出各个类簇中的代表文本和词标签。