Boosting在文本分类中的应用

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:gmwzg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今社会,人们身边充斥着大量的数据,特别是文本数据,使人目不暇接。面对如此海量数据,我们已经不能简单地凭借人工处理来得到信息,迫切需要计算机来帮助我们更好地发现和管理这些信息资源。如何从海量数据中挖掘出有用的信息已成为当今科学研究的一个重要课题。文本数据挖掘是应用数理统计方法及计算机技术,对文本数据进行信息提取的一门新兴学科。文本分类是文本数据挖掘的一个重要研究方向。文本分类的方法已经有很多,比如Na?ve Bayes,K-近邻,支持向量机,神经网络等等。但对于中文文本分类问题,由于中文文本本身的复杂性,一直没有得到很好的解决,中文文本分类是建立在汉字编码,词语切分,歧义词消解和新词的识别等基础上的一项技术。中文文本数据的处理是以语句作为研究对象,以词作为最小研究单位的,因此无论是在中文文本数据的语法研究还是计算数学模型上都存在相当大的难度,目前采用的方法主要有基于语法规则的方法,基于数理统计方法,以及语法规则与数理统计相结合的方法。本文是在采用反向最大匹配分词技术,消解歧义,以及添加新词的基础上,建立了向量空间模型。基于数理统计的方法,使用Na?ve Bayes分类器,并使用AdaBoost算法对分类器的分类效率进行提升,以达到提高预测精度的目的。针对本文提出的方法,将其应用到了“长春市市长公开电话”数据的分类问题中,分类精度得到提升,显示该方法的有效性及其重要的应用价值。
其他文献
本文主要研究了Orlicz空间中的鞅不等式.首先应用了Burkholder函数的方法证明了Orlicz非负下鞅空间极大算子的双Φ-不等式.其后建立了极大算子的一些Φ函数不等式,通过对这些
本文围绕微分算子领域中的三个重要问题,即自共轭域、谱分析和具有转移条件的微分算子开展研究.由于自共轭算子的谱是实的,为了研究与谱分析相关的算子的零空间和值域,由实参数解
由于互联网技术、云技术、智能手机系统的迅速发展,基于网络的服务迅猛增长起来,因此如何保证信息的安全已成为迫切的问题.过去数十年,许多学者提出了很多基于混沌系统的数字图
分配格是一种特殊的偏序集,也是一种具有两个二元运算且满足幂等性、交换律、结合律、吸收律和分配律的代数系统.而群是具有封闭性、满足结合律、具有单位元和逆元的数学结构
社会性动物的群体活动往往能产生惊人的自组织行为,如个体行为显得盲目的蚂蚁在组成蚁群后能够发现从蚁巢到食物源的最短路径。受其启发,意大利学者M.Dorigo等人在1991年通过
神经元在中枢神经系统信息处理过程中起着关键的作用,神经元信息的产生和传输体现了丰富的非线性特征.因此,单个神经元与多个神经元耦合系统的非线性动力学研究具有重要意义。
学位
二阶系统通常是指用二阶微分方程所描述的系统。在控制系统等应用领域中二阶系统的存在尤为广泛。在一定的条件下,许多高阶系统往往都可以转化为二阶系统来研究。因此,对于二阶