基于主动学习的多示例文本分类研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:oyjing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多示例学习是有别于传统的监督学习和无监督学习的一种机器学习框架。经过近几年的研究,多示例学习的应用越来越广,尤其是在基于Web的文本分类上。然而,在多示例学习里面,正包里面示例标签在训练时是不明确的,只知道正包包含有至少一个正示例。这种不明确性会大大影响学习器的学习效果。本文通过引入主动学习,利用向Oracle询问正包里面的某些示例或者某些包的标签的方法,来减少正包里面示例的不明确性,扩大训练集的数目,以此来提高多示例学习在文本分类的分类性能。   主动学习研究的是如何用尽量少的带标签训练样本来提高学习器的学习效果。在主动学习的训练阶段,学习器可以通过向Oracle询问包含更多信息的一个或多个无标签的样本的标签,从而提高学习器的学习效果。   本文对如何把主动学习应用在多示例学习上,来提高多示例学习的学习效果进行研究。根据多示例学习的特点,多示例主动学习包含有三种询问模式:基于示例的询问,基于包的询问和基于包与示例的混合询问。本文研究的侧重点是基于包的询问的主动学习算法,提出了一种利用Fisher信息矩阵的方法作为选择策略,通过实验,与一般的不确定性抽样策略进行对比,取得较好的效果。根据实验,本文还分析了正包里面正示例和负示例的比例对多示例主动学习的学习效果的影响。本文最后提出了一种改进的询问策略:在向Oracle询问包的标签时,如果Oracle回答是正包,要求Oracle能同时返回一个在这个正包里面正示例。这种询问策略在现实的文本分类任务里是可行的,并且通过实验验证,这种策略比只是返回包的标签能更好的提高学习器的学习效果。
其他文献
为减弱背光噪音和大气变化对光通信造成的影响,设计基于虚拟仪器技术的光通信跟踪检测系统,使用虚拟仪器技术开发系统微型组件、软件功能,并对基于中值滤波和重心算法的跟踪
无线传感器网络是以数据为中心的自组织网络,用户感兴趣的是无线传感器网络感知的数据信息,而很少关心单个传感器或者传感器网络本身,因此,对无线传感器网络数据库的研究具有
随着计算机支持协同工作(CSCW)的发展,各种分布式系统开始与CSCW技术相结合,如协同编辑、协同软件开发和协同决策等。分布式协同系统越来越趋于开放性和动态性,其中的节点也
随着图像处理和计算机视觉等领域研究的不断发展,基于内容的图像检索技术逐渐成为当前研究中的一个热点。基于内容的图像检索作为一门交叉学科,结合了图像理解、模式识别、人工
贝叶斯网(Bayesian Network, BN)是联合概率分布的一种图形化表示,由于具有结构清晰,语义明确等特点,因此成为处理不确定性知识表示和推理的一种重要理论模型。贝叶斯网在机
学生进入高三三轮复习后,对于物理试题中出现的关键字“轻质”已经能基本把握,也能准确的进行物理解读,但是却很难找准其使用条件,下面以2015年河北省唐山一模理综试题24题分
用无弹性的绳子将两物体连接之后,当绳子处于拉紧状态时,两物体便处于牵连状态.处于牵连状态的两物体,一个物体的运动速度会随另一个物体运动速度的变化而变化.但由于其间有
高中物理的电学部分在物理教学中占着很重的地位,本部分内容与日常生活联系紧密,在高考中占着很大的比例.所以.任何一名高中物理教师在教学过程中,力求将每一个环节讲解透彻.
随着全球经济一体化进程的加快,企业间的竞争日趋激烈,改善企业内部生产管理的生产调度技术越来越受到重视。生产调度是制造业的核心,直接关系到企业的生产、经营和管理效率
我们建宁县桐元大队有九个生产队,一个耕山队。全队二百一十五户,一千二百三十八人,水田面积二千九百六十五亩,每人平均二亩五分,是土地多劳力少的大队。一九七○年和一九七