基于模糊C均值算法在文本聚类中的研究与实现

被引量 : 21次 | 上传用户:p54188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网中,以新闻为代表的文本信息正在高速增长,如何实施有效的文本聚类算法是数据挖掘领域的研究热点。模糊聚类建立了样本对类别的不确定描述,能更客观地反应现实世界,从而成为聚类分析的主流。模糊C均值算法是基于目标函数的模糊聚类理论中应用最为广泛的一种算法。但是,模糊C均值算法本身也存在一些缺陷,比如聚类个数需要事先给定,算法对初始聚类中心敏感等。针对模糊C均值算法存在的问题,主要完成以下三方面的研发工作:1)提出了毗邻群的概念,可以根据需要有效地降低数据的规模。2)引入了聚类有效性评价模型作为评判聚类划分的综合指标,同时用遗传算法优化聚类中心,通过迭代可以确定模糊C均值算法所需的初始C值和最佳的初始聚类中心。3)将毗邻群和粘合度概念及其算法用于修正模糊C均值算法的隶属函数矩阵,加快了模糊C均值算法的收敛速度。本文基于提出的改进型模糊C均值算法,设计和实现了一个中文文本聚类系统,并选取搜狗实验室的文本分类语料库进行了对比实验。实验结果表明,本文提出的改进算法在中文文本聚类中表现出了明显的优势。
其他文献
文章对青海省运动与旅游发展进行研究分析,并提出了构建青海省运动与旅游休闲城市。通过研究可知,青海省拥有独特风景特色和优美的原生态环境;城市配套设施齐全,但乡村生态旅
本文以联合穿刺针导向槽为加工对象,基于导向槽的尺寸特点和电解加工原理,研究其电解加工设备的关键技术,提出细槽电解加工间隙基本恒定控制算法。在此基础上分析机床主要组成部
目的:评价清肺保元汤对AECOPD患者SAA水平及临床症状、体征的影响。方法:将40例AECOPD患者随机分为对照组和治疗组各20例,对照组患者采用西医常规治疗,治疗组患者在对照组基
具有优良电磁性能的硅钢被称为钢材中的工艺品,作为重要的生产材料被广泛的应用于各个领域。退火过程是硅钢生产过程中的最重要工序,退火效果直接影响着硅钢产品的质量。过程
模具生产技术水平的高低是衡量一个国家产品制造能力的重要标志,而它的生产技术水平在很大程度上取决于产品的质量,效益和新产品的开发能力。由于标准件可以简化产品的设计、
技能大赛对提高学生综合能力起到促进的作用,对促进汽车运用与维修实践教学的改革具有重要的现实意义。
由于新三板市场准入门槛较低,目前国内许多中小企业都希望在新三板市场挂牌。与主板及中小板上市公司相比,一些企业的管理及公司治理远远落后,有些甚至违规使用资金,不能及时
高校的基本任务是培养人才,高校教师不仅传播科学文化知识,更应该是学生人格和灵魂的重要塑造者。高校教师应坚定理想信念,刻苦钻研业务,在教育教学实践中不断提升职业道德修
在隧道工程建设中,隧道施工监控测量是新奥法施工的重要内容,它提供的实测数据对指导施工、保障施工安全和优化设计起到重要的作用。但是,由于各种原因,现有的施工监控测量仪
目的:探究血清、脐静脉血鸢尾素水平与妊娠期肝内胆汁淤积症(ICP)相关指标之间的相关性,为ICP的病因、治疗等提供参考。方法:采用横断面对照研究方法分析108例正常孕妇、64例