【摘 要】
:
聚类分析是多元统计分析中研究“物以类聚”的重要分支,其前身是人类认识世界的基础科学——分类学(数值分类学)。随着信息科学、计算机科学的迅猛发展,人类进入大数据时代。这一时代的聚类分析呈现高度计算机化、智能化特征,与数据挖掘技术高度结合。聚类分析可自动从复杂样本数据进行聚类,无需在分析前确定分类的标准。聚类分析的这些特点,使其在很多领域,如文本分类、机器学习、模式识别、图像分析等,得到广泛的应用。聚
论文部分内容阅读
聚类分析是多元统计分析中研究“物以类聚”的重要分支,其前身是人类认识世界的基础科学——分类学(数值分类学)。随着信息科学、计算机科学的迅猛发展,人类进入大数据时代。这一时代的聚类分析呈现高度计算机化、智能化特征,与数据挖掘技术高度结合。聚类分析可自动从复杂样本数据进行聚类,无需在分析前确定分类的标准。聚类分析的这些特点,使其在很多领域,如文本分类、机器学习、模式识别、图像分析等,得到广泛的应用。聚类分析可分为硬聚类和软聚类。软聚类即模糊聚类,是硬聚类的拓展,即由明确的类别关系拓展为模糊的类别关系。模糊C均值(Fuzzy C Means,简称FCM)聚类是应用最广泛的模糊聚类方法。类别数是影响FCM聚类效果的主要因素,有效性度量则常用于评价FCM聚类效果。因此有效性度量常作为选择FCM类别数的指标,是FCM算法改进研究的重点内容。文本分类是FCM的应用方向之一,其改进研究多集中在改进FCM的性能以提升分类效果,很少从文本数据本身的特征进行。本文基于以上两点进行研究,并获得两个研究成果。第一,本文提出一个新的有效性度量指标——XB+。较Xie和Beni提出的XB指标,XB+包含更多的类间信息,因此能更好地选择类别数。同时本文给出在5种不同数据集上的模拟实验,比较XB+与常用的4种有效性度量。模拟实验结果表明XB+在凸数据集上比其他4种度量表现略优。第二,本文提出结合LDA(Latent Dirichlet Allocation)与FCM算法的文本分类方法——LDA-FCM算法。文本数据通常是无法被计算机直接理解和处理的自然语言数据,在挖掘分析前需向量化表示,而向量化表示的文本数据是稀疏的和高维度的。同时文本数据具有词义模糊性(如一词多义和多词一义)和类别模糊性。本文提出的LDA-FCM算法,能降低文本数据的维度,降低由模糊性导致的分类错误率。同时给出LDA-FCM进行中文文本分类的实证研究,比较K-means、FCM及LDA-FCM的分类效果。
其他文献
随着黄河水资源的日趋紧张,人们对水资源的开发利用日益关注。推广节水灌溉技术,提高水的利用率已势在必行,通过对河套灌区发展趋势的分析,从农作物节水灌溉制度,农业技术措
湖北师范学院教育科学学院坚持"理论与实践相结合"的人才培养理念,打破传统的课堂教学模式,对实践性课程教学模式进行改革。《班级教育管理艺术》课程是具有实践性的课程,通
近些年来,我国各省市对教育发展越来越重视,特别是对职业教育这方面的关注力度加大。随着科技的日新月异,已经进入信息化时代的我们对于计算机行业不陌生,它渗入到我们生活的
讲授法是传统授课方式之一,也是不断推陈出新的最基本的教学方法。要想让这一教学方法发挥出应有的作用,获得好的教学效果,运用好课前准备、旧知复习与新知引入、新课传授、师生
针对高职教育的培养目标,结合衢州职业技术学院的具体情况,提出以能力为导向的枸建艺术类高职版式设计课程新体系,主要从完善课程结构、构建教学模块、建立教学实践基地和组织教
影子银行是个新颖概念,影子银行体系对一些国家和全球金融体系的金融结构、市场结构和制度规范等都产生了重要影响。但是,影子银行的杠杆操作、业务界限突破、过度金融创新、
<正>尊敬的作者:感谢您对《生态科学》刊物的关注!为了更好地为《生态科学》各位作者服务,《生态科学》编辑部已经启用新的采编系统。原先的采编系统(http://ecology.jnu.edu
<正> 一、新制度背景下的农村土地流转传统体制框架下,我国农村经济以农业经济为主,农业经济以种植业为主,农村土地实行集体所有、统一经营。依存于这种制度背景和经济结构,
农村信用社在促进中国农村经济发展和农村社会稳定的过程中发挥了积极的作用。但是,由于来自内部、外部及历史等多种因素的影响,信用社的资产质量恶化,不良贷款一直居高不下,
目前,"国培计划"顶岗置换模式作为一种成功的模式在全国各地得到了广泛的推广,但该模式所潜藏的法律风险并未引起人们的关注和重视。本文仅就何谓法律风险、"国培计划"顶岗置