【摘 要】
:
近些年来,随着Internet的迅速发展,出现了大量的自然语言文本,如何在这些信息中提取对我们有用的信息已经成为当前研究的一个热点问题,同时这也是文本自动分类的主要任务之一
论文部分内容阅读
近些年来,随着Internet的迅速发展,出现了大量的自然语言文本,如何在这些信息中提取对我们有用的信息已经成为当前研究的一个热点问题,同时这也是文本自动分类的主要任务之一。几何级数增长的电子文本、海量信息在日常生活中的传播,都迫切的需要我们对这些文本进行自动分类。使用文本自动分类系统可以帮助人们自动检索文本,以及判断文本的类别。分类问题是实际应用中普遍存在的问题,随着信息技术的快速发展,对其在理论研究和实际应用中提出了新的难题和挑战。建立在统计学习理论基础上的支持向量机是一种新型的机器学习方法,它根据有限的样本信息在模型的复杂度和期望风险之间寻求最佳方案,从而获得比较好的泛化性能。与传统的学习方法相比,SVM具有对维数不太敏感、收敛到全局最优点、泛化能力强等的优点,比较好的解决了传统算法中经常出现的维数灾难、局部极值、过学习等的棘手问题,逐渐成为近几年机器学习领域中一个非常活跃的研究热点。本文首先介绍了文本自动分类技术在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括中文文本分类的过程、中文分词方法、特征提取、特征项权重的计算方法以及几种比较常用的分类算法,分别进行了研究和探索;再次对SVM理论进行了概括性的介绍,包括统计学习理论、SVM的最优分类面、各种情况下的分类情况、SVM的核函数以及分类步骤等;接下来是构建一种SVM分类器,介绍了中文文本自动分类系统的总体框架,系统流程和各个功能模块;最后对分类系统中基于不同算法的分类器分别进行实验比较,着重对SVM算法中基于不同的核函数在不同的特征提取函数下的实验效果做了对比。
其他文献
大数据已经来到我们的生活当中,给广播电视行业带来了机遇,也带来了全新的挑战。大数据的作用是从根本上转变广播电视的运转模式,逐渐向用户方向靠拢,使用户逐步从被动接收电
1、深圳:市物协举办迈向资本市场的物业管理专题培训9月25日上午,深圳市物业管理协会举办“迈向资本市场的物业管理”专题培训,该协会及成都市楼宇经济促进会的会员单位高层管理
在法国历史上,拿破仑是征服欧洲的英雄。鲜为人知的是,他不但是军事斗争的好手,搞金融战也颇有一套。
分析了高等院校护理教师的信息素质状况,提出了高等院校护理教师信息素质培养的方向和方法.
1986年英国发生疯牛病以来,我国采取一系列管控措施降低发生疯牛病的潜在风险,2003~2017年连续15年对饲料中牛羊源性成分(疯牛病传染因子)进行监测,监测结果持续降低,基本切
研究旨在将低值的腐竹副产物豆渣转化为富含益生菌的生物发酵饲料。以腐竹生产过程的副产物——豆渣为固态发酵主培养基,通过复配其他辅助组分后,接种枯草芽孢杆菌进行固态发
合作(Cooperation)是指两个或两个以上的个体为了达到共同的目标而采取团结协作的一种亲社会行为。个体在面对突如其来的自然灾害做出的任何决策,都将影响着自己和他人的生命
研究旨在探究不同比例的菠萝皮和木薯茎叶混合青贮对发酵品质和瘤胃降解的影响。试验设定6个不同木薯茎叶与菠萝皮干物质混合比例处理组,分别为100:0(对照组)、90:10(T1组)、
天津市:要求公开公示物业服务事项提升物业企业自律意识;江苏省:政府出台新规居家养老服务用房将成小区“标配”;福建省:10种情况可紧急使用住宅专项维修金无需再经过2/3业主同意
本研究选取了2014年4月-2015年2月本社区的70例2型糖尿病患者作为研究对象,将70例患者随机分为对照组和观察组各35例,对照组患者仅给予建立健康信息档案,在对照组的基础上,观