多标记学习及在文本分类中的应用研究

来源 :安庆师范大学 | 被引量 : 0次 | 上传用户:djy0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习的问题源自于文本分类,随着近十年的发展,目前对于多标记学习的研究已经成为了机器学习的新热点。以前,一件物品、一副图片、一篇文档,经常表现为固定的、单一的概念标记。但随着互联网产生的数据量爆炸性增长,在现实生活中,一个样本往往可以表现出多个概念标记,且具有多义性;这将导致传统的单标记分类算法已经不能满足于现在的需求。自此,多标记学习的框架开始被提出。多标记学习是解决复杂问题的有效框架,其表现形式为多示例多标记,该模型可以更好地与现实场景相吻合。近些年,对于多标记学习的研究重点旨在提高分类的精度和算法的运行效率,往往没有考虑到多标记数据集本身的冗余特征或者是次要特征。并且在主流的多标记特征选择算法中,大多数学者是通过计算特征与标记之间的信息熵,并用熵来度量特征与标记之间的相关性。然而这些方法大多不具有补的性质且计算复杂,而且这些非重要特征往往制约着一个多标记分类算法的性能。与此同时,在文本分类领域中,面对高维度样本的局限性以及处在边界文本分类的问题,同样也制约着分类器的分类效率。针对上述问题,本文的研究工作主要包括:(1)针对多标记学习存在的问题,根据粗集粗糙熵的思想构造出正域粗糙熵,用正域粗糙熵来衡量特征与标记之间的相关程度。通过对每一个特征和标记划分子空间,按照一定的采样比来选取重要特征。基于正域粗糙熵的思想恰好填补了传统信息熵的不足。这在一定程度上使选取的特征更加合理,也减少了数据集的维度空间。(2)进一步研究了多标记在文本分类中的应用,结合三支决策最小风险代价理论提出了一种新的、有效的kNN文本分类算法。根据最小风险代价损失理论设定风险损失值,并找到处于边界域的文档集合。文中重新定义了隶属度,对于处在边界域的文章使用隶属度来进一步分类,这种方法大大提升了kNN分类器的性能。
其他文献
分析了传统项目评审体系存在的不足,提出了将互联网技术引入项目评审体系,实现了基于Web技术的网上项目评审系统。系统构建中借助新型软件的建模与开发方法,在大型数据库管理
水质监测项目中,水体中的溶解气体属于化学性指标。文章对溶解氧、二氧化碳和硫化氢气体作了概述。
我省大部分水利枢纽工程都建在松花江支流上,易于截流。但随着水利工程的开发,大江截流工程越来越多,文章对该技术和方法进行了论述。
介绍了土壤湿度测量原理,着重阐述了系统的软硬件设计。MSP430单片机采集由土壤湿度传感器监测的信号,并根据输出信号的高低控制电磁阀的通断,以决定是否给土壤灌溉,从而实现
进入新世纪以来,寿险营销员的人力发展开始得到了不少相关学者的关注,特别是十三五规划开始,我国的保险业取得了较大的发展成果,人民生活水平得到了提高。但与此同时,寿险营
数值孔径和曝光波长是光刻成像分辨率的关键影响因素,采用大的数值孔径和短的曝光波长可以得到更高的分辨率和对比度,但是大的数值孔径会产生偏振效应,而偏振效应会严重影响光刻
目的探究心理护理对泌尿外科术前患者焦虑症状的影响。方法随机选择2015年10月至2017年10月本院泌尿外科治疗的80例患者,并采用随机抽样法将80例泌尿外科患者均分为两组。其
热技术茎流计是一种能够连续直接测量植物蒸腾耗水的仪器。系统的介绍了热技术茎流仪的发展历程及基本工作原理,从植物液流速率的变化规律、影响树木蒸腾速率因子、边材液流
目前数字高程模型的生成在大多数商用地理信息系统软件或遥感图像处理软件中都能实现,但提供的算法有所不同。结合目前常用专业软件提供的不同算法,对同一数据源的高程数据分
目的制订水线草2015版《中国药典》含量测定项中熊果酸和齐墩果酸的含量标准。方法采用RP-HPLC法,以Agilent-C18(4.6 mm×250 mm,5μm)为色谱柱,以乙腈∶甲醇∶0.5%冰醋酸(5