文本分类中特征提取及分类算法的研究

来源 :东北林业大学 | 被引量 : 7次 | 上传用户:joeworms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的逐渐成熟以及微博等社交媒体的发展极大的改变了人们的生活方式,越来越多的用户喜欢通过网络发布信息、查看实时信息以及评价信息。网络通信量的迅速膨胀,导致网络数据量迅速增加,使得用户查找所需信息的速度和数据量呈现一种矛盾的关系。文本分类任务是有效处理和降低信息过载的方法之一。特征提取和分类建模方法是文本分类任务中最重要的两个环节。中文文本存在着一词多义、多词一义等问题,使得语义方法在特征提取方面具有很好的效果。另外,考虑到边界样本和类中心样本对分类贡献的差异,强化边界样本在分类中的作用有利于提高分类的性能。同时,在传统的分类建模中,通常使用单分类器进行建模,单分类器方法的特性决定着在不同应用场景下具有不同的分类效果,使得单分类器方法在不同情景下会丢失样本的部分信息。针对以上问题,本文做了以下几方面的研究:(1)在特征提取方法中,针对Sprinkling语义特征提取方法中没有充分考虑样本类别权重的问题,本文结合样本权重函数提出一种K-Sprinkling特征提取方法,通过样本权重函数来表示样本对样本类别贡献度的大小。该方法利用柯西分布隶属度函数作为样本类别的权重,并通过分析柯西分布隶属度函数的缺点,改进了柯西分布隶属度函数,从而构造了样本隶属度和样本紧密度结合的样本类别权重函数,并将结合后的样本权重融入到Sprinkling特征向量空间中,利用奇异值分解以实现语义深层次的特征挖掘,从而完成文本分类任务。(2)在分类建模方法中,本文考虑不同特征提取方法的关注点不同,提出了多类型分类器融合的文本分类方法。该方法结合了 word2vec、主成分分析、潜在语义索引和TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并针对多类型分类器加权投票方法忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。该方法中的类别权重是根据训练集在分类器中的分类正确率作为样本类别的权重,然后在投票决策中使用样本权重进行投票加权,以实现文本分类建模。实验结果表明,相对于改进前的特征提取方法,本文所使用的方法更能有效的进行文本分类任务,在准确率、召回率以及F1值上都有很大的提升,并且对不平衡数据集以及特定情景下的数据集也有很好的分类效果,这对文本分类在其他领域研究具有支持意义。
其他文献
阿斯巴甜的性质与在软饮料中的应用袁永辉江苏省启东清泉饮料厂1前言阿斯巴甜(Aspartame)学名α-L一无冬氨酰-L一苯丙氨酸甲酯,它是1965年美国区欧尔(G.D.Searle)公司的研究人员在合成促胃液分泌激素时发现的一
为解决高端检测设备不齐、毕业生与就业岗位需求有较大差距等问题,培养行业企业适销对路的、能快速上岗的分析检验技术技能人才,学校工业分析技术专业通过整合校企人力、技术
<正> 违约金是指当事人在合同中约定或根据法律规定,一方当事人于违约后应支付给对方的一定数额的货币或代表一定价值的财物。合同法第一百一十四条规定当事人可以申请对违约
关于对口支援问题的讨论,理论界和实务界都在关注"对口支援实践能做什么",却没有指明"对口支援应该是什么",甚至夸大了对口支援的功能,造成"援助病"。对口支援的功能(能做什
新西兰医疗保健制度改革(下)北京医科大学拾景达综述骊材芳审阅中国人民大学孙英华四,国民政府19el年实施的医疗保健改革1991年7月,大规模医疗体制改革方案出台了。这次改革是国民政府1991年7月
本文全面介绍了新西兰医疗保健制度的改革,阐述其改革体系的基本特征及其所面临的一系列问题和压力,并就改革对医疗保健制度的效率及公平性的冲击进行评估。指出如果要实现改革
习近平主席提出的供给侧改革的思想已成为我国政府制定政策的指导。在经济学的发展过程中,曾经形成了短期的需求和供给管理的宏观经济政策主张。需求管理强调通过政府支出和
通过程序化、自动化、组块化等方式,显性知识可以转化为隐性知识,这种转化一方面有利于个体充分利用有限的认知资源加工更多信息,另一方面也可使已转化为长时工作记忆的信息
“马克思主义与当代社会思潮”系华中科技大学开设的文科博士生公共政治理论课程。该课程对于深刻认识和理解马克思主义的当代发展 ,正确分析和把握当代社会各种思潮 ,扩大知
文章构造了再分配倾向决定的一个新分析模型框架,即经济利益、风险规避、公平信念和声誉理想的四类动机框架,从人们决策的动力本身出发,使用中国社会调查数据(CGSS),系统性地