基于支持向量机的文本分类方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hether_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门从大规模数据中提取有用信息和知识的新兴技术,文本挖掘是数据挖掘中一项重要内容。面对大规模的、高维的数据,如何建立有效的文本挖掘算法是数据挖掘研究的方向之一。围绕以上问题,本文利用支持向量机对文本分类数据挖掘中涉及的若干问题进行了深入研究,主要包括以下几个方面的内容: 通过对支持向量训练速度慢的主要原因进行分析,利用一种预抽取两类样本相对边界的边界向量的FFMVM方法、模糊循环迭代算法,提高支持向量机训练速度。在此基础上,提出了一种基于上述改进的支持向量机的两类文本分类算法,以预抽取的边界向量集合作为初始工作集合,以模糊循环迭代算法对支持向量机进行训练,实验结果表明,与传统方法相比该算法具有更高的效率。 针对目前支持向量机多类分类方法存在的缺点,在一种新的支持向量机多类分类方法基础上提出了一种SVM多类文本分类算法。实验结果表明,此方法与目前认为性能好的DDAGSVM方法相比,需要训练的支持向量机数目少,训练速度快,分类速度快,同时克服了可能出现的不确定分类区域的存在。
其他文献
本论文将在掺Yb3+双包层光纤相关知识和光纤激光器锁模理论的基础上,介绍掺Yb3+双包层锁模光纤激光器的实验研究成果。主要内容包括以下几个方面:首先,对掺Yb3+双包层光纤激光器的发展历史和优良特性以及应用进行介绍。然后,对掺Yb3+双包层光纤的特性进行介绍,其中包括Yb3+的能级结构和光谱特性,双包层光纤的结构、泵浦方式以及光纤的非线性效应。最后为了以后的锁模实验,对锁模光纤激光器的腔型和锁模机
目的探讨CT能谱多参数成像联合前、后置ASIR-V技术在门静脉检查中降低辐射剂量及碘摄入量的应用价值。方法收集在安徽医科大学第一附属医院进行CT门静脉成像检查的病人共67例,随机分为实验组(32例)和对照组(35例)。实验组使用低碘浓度(300mgI/ml)、低总量(按1.0ml/kg体重计算)对比剂,门脉期采用能谱联合前置40%权重ASIR-V模式扫描,平扫、动脉
全基因组关联分析(genome-wideassociationstudy,GWAS)已经成为当前揭示复杂疾病遗传机理必不可少的方法。近十余年来,对GWAS方法的研究逐步深入,由最初的单位点、单性状分析发展到多位点、多性状联合分析,然而结果仅能解释很少一部分遗传力。因此针对GWAS的方法学研究具有十分重要的意义。临床和流行病学研究表明,复杂相关疾病往往发生在同一个人或
数字普惠金融的快速发展帮助欠发达地区和社会弱势群体获得便捷的金融服务,它通过降低交易门槛,提高居民金融知识储备影响家庭参与金融风险市场的决策。本文通过对数字普惠金融现状和家庭金融资产变化的分析,从数字普惠金融对于家庭金融风险市场参与概率、投入比例和投资组合三个方面有针对性的提出假设并设计模型进行验证。本文主要采用中国数字普惠金融指数及浙江大学“中国家庭大数据库”进行研究,通过手动筛选最终留下有效家
目的:建立并验证对重症急性胰腺炎(SAP)首次发作有早期预测价值的可视化列线图并探讨预后相关风险指标。方法:回顾性纳入2013年1月至2020年12月西南医科大学附属医院收治的首次急性胰腺炎(AP)发作的患者1860例,用R软件caret包按7:3比例将患者拆分为原始队列和验证队列,根据2012年亚特兰大分级标准将两队列中的患者分为非重症急性胰腺炎组(NSAP组)和
世纪之交的基础教育课程改革提出了“大力推进信息技术在教学过程中的普遍应用,促进信息技术与学科课程的整合”的改革途径,《教育信息化十年发展规划(2011-2020年)》又进一步提出实现信息技术与教育教学的“深度融合”能够更好地以教育信息化拉动教育现代化。自此,信息技术与教学深度融合成为了教育教学改革的重要途径和理想追求。那么,在学科教学实践中,这些基本的规定和理念是否
近年来,图像融合技术随着信息融合技术的相关研究有了突飞猛进的成就的基础上,也同样的逐渐发展起来。图像融合其宗旨就是通过多传感器得到多个图像,并将各个源图像进行一定的融合算法和规则处理后得到新的目标图像。对于最终获得的目标图像不但要包含源图像的所有重要信息,而且要足够清晰以便视觉查看和计算处理。图像融合不仅应用在医学、遥感探测、环保等领域,还在雷达图像、反恐侦查等军事上也应用广泛。目前来看,因为Wa
学位
单位代码10445学号2019308024分类号G206山表铸私爻赛硕士专业学位论文国内慢综艺节目的传播与优化策略—以《向往的生活》节目为例Thedisseminat?
学位
以大连某电力隧道工程实例为背景,介绍500KVGIL和220KV电缆双舱电力隧道通风系统的设计,着重说明通风方式的选择,防火分区、通风分区的划分,防火措施,通风量计算等几个方面的问题。
在数字化技术和网络技术迅速发展的今天,信息安全显得越来越重要,数字水印技术作为一种通过在原始数字产品中嵌入数字水印来验证数字产品所有权的信息加密技术,为版权保护提供了一种新的解决途径,已成为信息安全领域的一个热点,近年来引起了人们的高度重视。但是,还有许多问题需要解决。因此,本文的工作具有研究价值和现实意义。现在大部分的数字水印技术所嵌入的水印一般是随机信号或者是二值图像,而用有意义的灰度图像和真
学位