基于向量空间模型的中文文本聚类方法的研究

被引量 : 0次 | 上传用户:yzlwxl3554041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类是聚类分析领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文对基于空间向量模型的中文文本聚类算法做了较深入的讨论。利用开源语料库,实现并讨论了现有比较流行的多种算法的优劣,并基于语料库的实际聚类效果,就维度确定、特征选择、文本表示等方面提出优化方案。本文首先回顾了中文文本聚类领域的已有成果,列举了文本聚类领域在文本表示、文本相似度衡量、文本信息特征集缩减等方面的基础研究工作。另外,本文回顾了现有的中文文本聚类算法,以及常用的文本聚类效果评价指标。在回顾了已有成果的基础上,本文针对向量空间表示模型,基于搜狐研发中心搜狗实验室的开源语料,设计并实现了几种比较流行的聚类算法,并根据实验结果,对这几种算法在多个层面上做了比对。实验表明,层次法的聚类效果较好,但时间消耗较大;而划分法在聚类效果的表现上不够稳定,但时间消耗相对较小。在对实验结果进行分析后,本文还针对现有算法存在的一些问题,在维度确定、特征选择、文本表示等多方面提出了改进,改变了传统的空间向量模型单纯依靠词条进行统计的缺点,考虑了词条本身所蕴含的含义以及词与词之间的关系,这些改进在基于语料库的文本聚类实验中有效地提高了聚类的效果。在两种流行的聚类有效性评价指标PP与PR的表现上,分别最多提高了11.4%与20.5%。这表明,基于词条更多隐藏信息的文本聚类可以得到较好的聚类结果。
其他文献
研究凸透镜成像规律实验是初中物理中的一个重要实验,不管是旧版教材,还是新版试验教材,均将它列为学生分组实验,足见其重要性。然而在很多学校,由于实验条件限制或学生具体情况不
随着欧美日韩等发达国家对中国汇率施压,"汇率问题政治化"、"贸易战与货币战"一时兴起,困扰着后金融危机时期中国复苏的步伐,汇率升值持续升压,目前已演变成国际舆论关注的焦
永磁同步电动机的运动控制需要精确的转子磁极位置信号去实现磁场定向。传统机械传感器检测电机转速和磁极位置的方法,存在成本高、可靠性低、恶劣环境下适应能力差等问题。
随着基因组学、表观遗传组学、转录组学等多组学研究的兴起,产生了大量的高维数据,这类资料的显著特点是超高维、稀疏性,变量数远大于样本数。虽然变量很多,但是绝大部分都是
研究目的:为评价浏阳河隧道施工下地表沉降的安全性,本文从围岩稳定、经验公式和相关规范角度探讨地表变形控制标准,进而建立三台阶工法和双侧壁导坑工法下的三维仿真模型,并
本文通过查找相关文献资料,阐述了拳击训练监控中常用的生理生化指标,并指出了当前训练监控中存在的问题。
日本室町时期的文化,究其实质是以中国禅以及禅文化的传入为契机,在直接或间接地受到其刺激和影响、渗透之后,在承袭了其主要精神和内涵的基础上形成和发展起来的。尤其是从
随着经济的发展和管理的需要,以往把会计的反映(核算)和控制(监督)职能认为是会计的基本职能的观点已经明显滞后于会计实践,因此对会计职能进行重新界定是很有必要的。我认为
主要从方舱的冷、热负荷计算方法,空调器的选型及安装,加热器的选型及安装等几个方面介绍了电子方舱的环境控制设计方法。
随着信息技术和互联网技术的发展,电子商务作为一种新型、高效的商务模式开始普及,现在用户可以在计算机前轻点鼠标就能完成复杂的商品买卖行为,但电子商务在给人们带来方便