【摘 要】
:
文本聚类是中文文本挖掘中的一种重要分析方法。K均值聚类算法是目前最为常用的文本聚类算法之一。但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏
论文部分内容阅读
文本聚类是中文文本挖掘中的一种重要分析方法。K均值聚类算法是目前最为常用的文本聚类算法之一。但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感。本文针对这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心。实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果。
其他文献
人力资源和社会保障部新闻发言人尹成基日前表示,2011年将加强技能人才队伍建设,启动实施国家高技能人才振兴规划。尹成基说,今年人力资源社会保障部将建立起国家专家服务基地,开
本文从设计要求和功能出发,设计了一种用于混合动力汽车的电池管理系统。其中硬件系统包括:电源模块、基于02890的单体电压采集电路和12C通信电路、基于DSP的RS232串口通信和CA
协议识别是实现网络对抗的一个重要前提条件。简要阐述了网络协议识别的重要性,构建了协议识别系统的结构模型,提出了进行网络协议识别的几种研究思路,并在数据挖掘方法的基础上
目的探讨术前口腔管理对肝癌患者肝切除术后手术部位感染(surgical site infections,SSI)的影响。方法回顾性分析2015年1月-2019年12月在上海交通大学医学院附属新华医院崇明
本文对一起石化企业的人员灼伤事故原因进行分析,反映出了目前行业内对于管线打开作业安全管理存在的问题,提出了加强管线打开作业安全管理的建议和措施。
本文提出了一种确定性和适应性相结合的路由算法SD。SD路由算法相对于维序路由算法能更好的适应基于mesh拓扑的NoC中的热点或拥塞条件,而相对于完全适应性路由算法,SD路由算法
多功能剧场作为一种特殊的建筑结构,对建筑有着更高的要求,它需要以声学功能为主要功能来建造,同时也需要有更好的声学效果。因此,在多功能剧场的室内设计过程中,我们需要注
这次会议的主要任务是,总结回顾年初以来全省劳动保障工作情况,分析形势,研究部署下步工作;按照近期国家及省里关于完善城镇社会保障体系试点和再就业工作的有关要求,重点部署做好
本文根据潜泵式抽油井的生产特点,结合电力线载波通信技术,通过对井下信号通道的分析和多种传输方案的比较,提出了一种基于电力线载波的星点通道传输方法,设计了相应的硬件电路,采
记叙文是统编初中语文教材的重心。辨识文体、明晓文意、把握结构、品味语言,从外到内明晰记叙文的阅读方法和写作技巧是记叙文教学的基本观念;记叙文教读课的目标是形成"人