集成学习在样本不平衡垃圾短信识别上的应用

来源 :广州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:vista_momo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息资讯发达的今天,短信已成为日常生活中每天都要接触的东西,但同时垃圾短信也常常困扰着人们,为此,进行垃圾短信过滤成为了一个必要的问题.与普通的分类问题不同,垃圾短信的表现形式为文本数据,且不同的垃圾短信的文本特征各不相同,提高了分类识别的难度.其次,垃圾短信总体来说在所有短信中的占比并不高,因此,常常伴随着类别不平衡,由此样本不平衡带来的信息不充分也提高了识别的难度.针对这些问题,文章首先采取TF-IDF方法进行特征提取,把文本数据转化成向量的形式,然后在经过转换的数据应用欠采样技术获得若干个类别平衡的训练样本,每个样本分别采取朴素贝叶斯、决策树和支持向量机等分类模型进行训练,得到相应基分类器,最后再利用集成学习的思想把基分类器进行模型融合,得到一个分类性能较高的垃圾短信识别模型.
其他文献
目的研究针灸配合推拿治疗腰椎间盘突出症的临床效果。方法选取在我院接受治疗的腰椎间盘突出症患者88例,时间为2017年1月—2018年1月,根据患者接受治疗方式的不同,将患者分
<正>由中国建筑防水材料工业协会主编,北京市园林科学研究所、深圳大学建筑设计院和中国化建公司苏州防水研究设计所等七个单位共同编制完成的行业标准《种植屋面工程技术规
文章概述了商法的产生与发展,我国商法的形成与发展,阐述了“民商分立”与“民商合一”体例,主张我国商法采用“民商分立”体例。
<正> 造纸行业布毛,稻草等散装原料在运输的过程中,由于打包、包装不合理,造成体积过大和散包的现象。我厂历史上是采用“木栅栏”进行人工打包,在运输的过程中散包率达到15%,
目的总结497例首程治疗的无远处转移的鼻咽癌患者治疗失败的原因及时间,为鼻咽癌治疗提供依据。方法收集首程根治性治疗的无远处转移的鼻咽癌患者1 338例,所有患者治疗前经病
<正>自1997年中国IT网站chinabyte获得发布第一例网络广告算起,到2007年,网络广告在中国的发展足足有十年的时间。据CNNIC的统计数据.1997年中国网民总人数为62万人,到2007年
近年来,公司治理丑闻不断发生,其中由于大股东和代理人争夺企业控制权引发的"国美事件"在国内外饮起了高度关注。在中国的群雄榜上,"国美"是一个绕不过去的名字,它曾经创造了
<正>目的通过不同抗血小板药物治疗对微栓子的干预效果,以探讨阿司匹林联合双嘧达莫在缺血性脑血管疾病治疗中的临床价值。方法选取100例微栓子监测阳性患者均给予内科常规治
会议
<正>一、认知风格的概念认知风格,又称认知方式,认知模式,在以往的研究中,认知风格将认知过程和人格统一起来,是一个介于智能和人格之间的心理学概念。关于认知风格的概念,国
本文主要对长期以来被忽视了的作为“朦胧诗”前身和源头的“前朦胧诗”作了评述,作为开创者,黄翔和食指等人的意义在于从思想和艺术形式上奠定了朦胧诗产生的基础,而“白洋淀诗