基于自适应簇中心选择的文本聚类算法研究

来源 :成都信息工程学院学报 | 被引量 : 0次 | 上传用户：XDCHZHTXZHY

【摘要】

：

为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇

【作者】

：

翟东海聂洪玉崔静静杜佳

【机构】

：

西南交通大学信息科学与技术学院,西藏大学工学院

【出处】

：

成都信息工程学院学报

【发表日期】

：

2013年6期

【关键词】

：

海量数据挖掘初始簇中心文档距离 K-MEANS算法 data mining initial cluster center document distan

【基金项目】

：

国家语委“十二五”科研规划资助项目（YB125-49）,教育部科学技术研究重点资助项目（212167）,中央高校基本科研业务费专项资金科技创新资助项目（SWJTU12CX096）,国家级大学生创新创业训练计划资助项目（201210694017）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.

其他文献

二维复合极值模型在暴雨多变量联合分布中的应用

为了更好地描述暴雨多变量特征,构建以GPD为边缘分布的泊松-二维Copula复合极值模型,并将其应用于成都温江站暴雨雨量和暴雨雨峰的联合概率分布计算,研究表明该模型：理论联合

期刊

气象学气候统计二维复合极值模型多变量暴雨联合概率分布meteorology climatic statistics compound bivar

2013年夏季中国南方区域性高温天气的成因分析

为了对2013年夏季中国南方区域性高温天气进行系统的分析,采用统计分析等方法,利用常规气温资料及NCEP/NCAR再分析资料讨论了此次高温的特征及成因。结果表明：2013年夏季中国

期刊

气象学诊断分析2013年夏季南方高温天气极端性成因分析meteorology diagnostic analysis summer of 201

基于向量空间模型附加词义特征的句子相似度研究

向量空间模型常被用于计算两个句子的相似度，通过将两个句子转换为词项向量，然后计算两个向量的夹角余弦值，就可以得出两个句子的相似度分数。传统的向量空间模型没有考虑到句子

期刊

计算机软件与理论信息检索向量空间模型句子相似度词语相似度computer software and theory IR VSM sentence

长江中下游持续性异常降水的天气学特征分析

针对长江中下游持续性降水的研究多为个例诊断,很少从合成的角度考虑,利用长江中下游地区89站的1961-2011年的逐日降水资料和NCEP/NCAR逐日再分析资料,采用数理统计和合成分

期刊

气象学持续性降水长江中下游厄尔尼诺meteorologicalcontinuous abnormal rain the middle-lower r

一次川东暴雨的雷达资料同化试验与诊断分析

为了对大尺度暴雨天气过程的雷达资料四维变分同化效果进行验证,选取2013年6月29日至7月2日发生在川东遂宁地区的一次暴雨天气过程,使用WRF中尺度模式进行雷达资料的同化模拟

期刊

气象学资料同化暴雨四维变分同化诊断分析meteorology data assimilation heavy rainfall 4D-VAR

可扩展性桌面搜索引擎的设计与实现

为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在

期刊

计算机软件与理论桌面搜索倒排索引组件编程多线程处理computer software and theory desktop search inve

基于Pro／E的平面凸轮NC加工

文中介绍了基于Pro/E的平面凸轮加工实践，包括造型方法、加工编程、经验总结等．可作为同类零件加工的借鉴。

期刊

PRO/E平面凸轮NC加工

数控机床主轴支承结构的设计

对数控机床主轴支承结构进行分析比较，介绍了一种便于调整主轴轴承装配位置的结构。

期刊

数控机床主轴支承结构设计

民航京沪穗数值预报系统在广州的本地化试验

为了调整优化基于WRF模式的民航京沪穗数值预报系统在广州本地的预报效果,使用3组不同的物理参数化方案和资料同化方案组合,对发生在2011年10月13日~14日广东地区的暴雨过程

期刊

气象学数值模拟暴雨WRF模式参数化方案降水诊断量meteorological numerical simulation heavy rainfa

极化SAR图像中基于子孔径分析的两种非平稳目标检测

为检测和区分极化遥感SAR图像中的非平稳目标，讨论了极化SAR图像中两种非平稳目标的检测和区分方法。用极大似然比对固定朝向非平稳目标进行检测，用变化系数对周期表面非平稳目

期刊

雷达非平稳极化SAR子孔径分析radar nonstationary Pol-SAR subaperture analysis

基于自适应簇中心选择的文本聚类算法研究

与本文相关的学术论文