基于核心词项平均划分相似度的短文本聚类算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:xfjs08jx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对短文本特征极度稀疏、上下文依赖性强等特点,以自顶向下的策略,提出一种基于核心词项平均划分相似度的短文本聚类算法CTMPS。该方法首先在整个短文本语料库中计算词项之间的概率相关性,以此为基础对短文本中词项进行加权,将权值较大的词项作为最能代表该短文本的核心词项形成核心词项集;以信息论为基础,将核心词项作为划分依据计算平均划分相似度,选择平均划分相似度值最大包含该核心词项的短文本形成一类,用此策略反复迭代直到满足要求。最后,实验结果表明,本文提出的方法显著地提高了短文本聚类的性能。
其他文献
急性低血压是危害病人健康的并发症之一,对急性低血压发生的提早预测,能够帮助医生对重症病人找到更好的医疗处理方案。提出了一个基于趋势分量的Gaussian函数拟合预测模型,即用
综述地黄饮子在方剂研究、临床应用研究、实验研究等方面近 2 0年的资料。认为该方应筛选、精简药物 ,研制成高效、方便的现代新剂型 ;对该方益智作用的实验研究尚待进一步深
处理器结构的日益复杂使得对处理器功能进行有效验证变得越来越重要和关键。基于一款高效能计算协处理器ESCA,讨论了边界值验证、等价类验证和决策表验证等三类验证方法在ESCA
本文主要针对计算机基础课程在高职院校实际教学中存在的问题进行了探讨,并结合教学实际,提出了具体措施与建议。