基于语义的高质量中文短信文本聚类算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:iou820915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有数据聚类方法在处理文本数据时,没有考虑词之间潜在的相似信息,导致聚类效果不理想。针对中文短信文本聚类提出一种基于语义的聚类算法。给出中文概念、词和中文短信文本的相似度度量方法,通过向下连锁裂变和向上两两归并完成中文短信文本聚类。实验结果表明,该算法的聚类质量高于传统算法。
其他文献
复合刷镀是一种新的刷镀工艺方法,Ni-SiC复合刷镀层的硬度及耐磨性能良好,具有很好的经济、使用价值。介绍了复合刷镀设备,研究、分析了复合刷镀Ni-SiC镀液配方、工作电压、溶液温度、镀笔运
以黄土沟壑区典型小流域泥河沟为研究区,基于1986年的彩红外航空相片、2002年SPOT影像、2016年GF-1卫星影像的解译结果和社会经济统计数据,利用景观指数、土地利用程度、信息
针对机载电子组件维修周期长、测试效率低的现状,为实现燃油控制面板组件自动测试,设计了一种燃油控制面板自动测试系统。该设计基于虚拟测试效率低仪器技术和计算机测控技术
叙述了铝氧化着色和封孔的基本原理 ,阐明了影响质量的一些关键问题。对电解着色的现状和发展趋势以及提高铝型材产量和效益提出了新见解。指出电解着浅色和深色是主要流行色
根据孟加拉数字的特点,将方向线素特征应用于孟加拉手写数字识别的特征提取,并辅以端点和交叉点特征,采用BP神经网络作分类器进行识别。利用从实际孟加拉信封图像中采集到的手写体数字作为样本进行实验,结果表明,该方法的识别率和可靠性分别达到97.63%和98.77%。