SVM和K-means结合的文本分类方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：njpolice

【摘要】

：

有监督的分类方法是文本分类中常用的方法，它需要采用人工标识的样本进行训练，对样本的人工标识是一个比较繁锁的过程。无监督的分类方法没有这一过程，但其分类的效果往往不太好

【作者】

：

晋幼丽周明全王学松

【机构】

：

北京师范大学信息科学学院,北京师范大学教育技术学院

【出处】

：

计算机技术与发展

【发表日期】

：

2009年11期

【关键词】

：

文本分类 K—means 支持向量机 text classification K - means support vector machines

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

有监督的分类方法是文本分类中常用的方法，它需要采用人工标识的样本进行训练，对样本的人工标识是一个比较繁锁的过程。无监督的分类方法没有这一过程，但其分类的效果往往不太好。针对两者各自的优缺点，利用一种基于SVM和K—means相结合的文本分类方法，首先用K-means方法进行文本聚类，然后选取每类中距离聚类中心较近的一些文本作为该类的训练样本训练SVM分类器，最后用训练好的SVM对文本进行分类。此方法避免了无监督方法分类效果不好的缺点，同时也省去了SVM方法中对样本进行人工标识的繁锁过程。基于灾害文本的实验

其他文献

微粒群优化算法的研究

粒子群优化（PSO）算法是一种启发式全局优化技术，一种基于群智能的演化计算方法，其源于鸟群群体运动行为的研究，算法通过粒子间的相互作用发现复杂搜索空间中的最优区域。PSO的优势

期刊

粒子群优化算法演化算法优化群体智能particle swarm optimizationevolutionary computation optim

西郊区明确发展教育事业的五项工作

西郊区副区长赵以贞在六月下旬召开的该区教育工作会议上说,为发展全区教育事业,今后的任务是:一要明确教育的战略地位,提高全社会把教育搞上去的自觉性。二要开辟、理顺资金

期刊

教育事业支教校办企业战略地位区副资金渠道工作会议

本市召开社区教育工作现场汇报会

不久前,市教育领导部门在红桥、河西分别召开社区教育工作现场汇报会。会上总结并推广了上述两个区及新村街、挂甲寺街充分发挥地区综合协调管理职能、动员社会各方力量、多

期刊

社区教育甲寺地区综合领导部门鲁学管理职能教育事业战略地位领导体制

河南西沟钼矿床地质特征及控矿因素

西沟钼矿位于河南省汝阳县境内,地处东秦岭-大别山钼成矿带的中段北侧,区内岩浆活动强烈而频繁,中-酸性火山岩分布较广,在该区已发现多处铅锌、钼矿床及矿点Mo资源量达20万吨

期刊

钼矿床地质特征控矿因素盲矿体东秦岭-大别山河南molybdenum depositgeological featuresore controll

内蒙古巴林左旗碧流台村北铅锌矿地质特征及远景预测

巴林左旗是内蒙古赤峰市重要的铅锌多金属矿产的产区,通过对碧流台村北铅锌矿区域地质背景、成矿地质特征、物化探异常特征、矿体特征等因素的综合分析,总结了碧流台村北铅锌

期刊

铅锌矿成矿地质特征远景预测碧流台村北内蒙古lead-zinc depositmetallogenic geological characterist

辽宁调兵山西调斑岩型钼矿床特征及找矿标志

西调钼矿位于华北板块北缘的法库断凸与吉黑褶皱系的接壤部位,该区具有良好的斑岩型钼矿的成矿潜力。西调钼矿主要产于石炭系黄顶子岩组及侵入的侏罗系晚期二长花岗岩之中,钼

期刊

西调钼矿斑岩型地质特征蚀变土壤地球化学找矿标志辽宁Xidiao molybdenum depositgeological characteris

一种实现控件与多语言文本动态绑定的方法

现代应用中大多已有进行多语言切换的需求，但对于控件本身文本显示信息，要实现多语言实时切换还有一些难度，文中提出一种能够根据用户的选择将控件与显示文本进行动态绑定显示的

期刊

多语言动态绑定控件CAR构件Elastos操作系统multi - lingual component dynamic banding CAR com

当前我国养老服务业的发展困境及突破路径

"精准养老"是有效解决养老服务业供给粗放、"靶向不准"难题的重要举措,更是化解供需结构性失衡的有效途径。以养老资源的有效配置为出发点,从养老服务业供需两端精准发力,精

期刊

养老服务业精准养老智慧养老Aged care service industryAccurate old-age careSmart old-age c

ET功放的自适应时延估计算法研究

为了保证包络跟踪（ET）功放的性能,需要实现射频支路和包络支路信号的严格同步。基于仿真分析恒定增益下功放输入信号功率与漏极电压间的关系,设计了一种基于时延失真方差的自适

期刊

包络跟踪时延估计时延失真方差迭代时延向量Envelope Tracking （ET） time misalignment estimationdel

在学校体苑辛勤耕耘——记全国优秀教练员芦台三中体育教师张庆祥

在宁河县,熟悉张庆祥的人都说:他有一股狠劲。他到哪儿,哪儿的体育成绩就上得快。张庆祥今年40岁。1976年底从天津体院毕业,分配到宁河县小薄中学任体育教师。当时小薄中学是

期刊

运会二名训练指标一名关心备至训练方法训练强度学习成绩训练计划三年

SVM和K-means结合的文本分类方法研究

与本文相关的学术论文