基于自适应簇中心选择的文本聚类算法研究

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户:XDCHZHTXZHY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.
其他文献
为了更好地描述暴雨多变量特征,构建以GPD为边缘分布的泊松-二维Copula复合极值模型,并将其应用于成都温江站暴雨雨量和暴雨雨峰的联合概率分布计算,研究表明该模型:理论联合
为了对2013年夏季中国南方区域性高温天气进行系统的分析,采用统计分析等方法,利用常规气温资料及NCEP/NCAR再分析资料讨论了此次高温的特征及成因。结果表明:2013年夏季中国
向量空间模型常被用于计算两个句子的相似度,通过将两个句子转换为词项向量,然后计算两个向量的夹角余弦值,就可以得出两个句子的相似度分数。传统的向量空间模型没有考虑到句子
针对长江中下游持续性降水的研究多为个例诊断,很少从合成的角度考虑,利用长江中下游地区89站的1961-2011年的逐日降水资料和NCEP/NCAR逐日再分析资料,采用数理统计和合成分
为了对大尺度暴雨天气过程的雷达资料四维变分同化效果进行验证,选取2013年6月29日至7月2日发生在川东遂宁地区的一次暴雨天气过程,使用WRF中尺度模式进行雷达资料的同化模拟
为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在
文中介绍了基于Pro/E的平面凸轮加工实践,包括造型方法、加工编程、经验总结等.可作为同类零件加工的借鉴。
对数控机床主轴支承结构进行分析比较,介绍了一种便于调整主轴轴承装配位置的结构。
为了调整优化基于WRF模式的民航京沪穗数值预报系统在广州本地的预报效果,使用3组不同的物理参数化方案和资料同化方案组合,对发生在2011年10月13日~14日广东地区的暴雨过程
为检测和区分极化遥感SAR图像中的非平稳目标,讨论了极化SAR图像中两种非平稳目标的检测和区分方法。用极大似然比对固定朝向非平稳目标进行检测,用变化系数对周期表面非平稳目