基于半监督的SVM多标签图数据分类算法研究

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:amuro111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘   要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集。文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分类算法。算法首先通过一对多二元分解将多标签图数据分解成多个单标签图数据。然后对分解后的图数据,运用半监督SVM进行分类。通过实验证明,该方法在已标注图数据较少情况下具有较高的分类精度。
  关键词:图数据;多标签;半监督;自训练
  單标签分类(二分类)是传统分类方法的主要研究方向,它是基于一幅图只有一个标签的假设上。在现实场景中,所用到的图数据一般都具有多个标签集[1-2]。
  半监督学习即利用大量无标签数据和少量有标签数据共同训练模型。但半监督学习很难与监督学习分类性能相比,但从目前算法优化发展来看,半监督学习很有可能达到传统分类方法的性能。
  1    基于半监督的SVM分类算法
  2    实验
  2.1  数据集
  用一组化合物抗癌活性性能数据集作为实验用多标签数据集。该组数据包含了化合物对于10种癌症的抗癌活性性能的记录,将10种癌症中记录不完全的数据移除,得到812个被分配了10个标签的图。
  2.2  评估方法
  多标签分类比传统单标签分类问题需要不同的实验结果评估标准。在这里采用Ranking Loss和Average Precision评估多标签[3-4]分类性能。实验结果评估标准如下:
  (1)Ranking Loss:评估分类实际输出值的性能,它的值由错误预测的标签对的平均值计算得到的。
  (2)平均准确率:评估排列顺序在特殊标签y之上的标签的平均值,把y设置为真实标签集。
  2.3  实验设置
  为了体现本文算法的有效性与实用性,采用以下对比方法进行实验。
  (1)单标签+SVM:这个方法采用单标签图数据训练普通的SVM模型。
  (2)多标签+SVM:这个方法采用多标签图数据训练自适应SVM模型。
  2.4  实验结果
  实验中,将每一个图数据集平均分割成10个小数据集。在这些数据集中只采用其中的一个作为测试集,其他的9个作为训练集,每一组实验重复进行10次。实验结果如图1—2所示。图1表示1-AvgPrec的实验结果,图2表示Ranking Loss的实验结果。
  如图1—2所示,纵坐标则分别表示1-AvgPrec值和Ranking Loss值,横坐标表示实验次数。由图1—2可知,无论是Ranking Loss还是1-AvgPrec,文章提出的方法(MG+STSVM)输出效果比(G+SVM)的输出效果略好。
  3    结语
  本文采用半监督SVM方法可以利用大量未标注数据来帮助分类模型的训练,从而挖掘出未标注数据中可能含有的对分类起重要作用的信息。进而,在已标注多标签图数据比较少的情况下,得到不错的分类器。在以后的研究工作中,将会继续完善研究方法,并寻找提高目标域子图数量的算法。
  [参考文献]
  [1]BRAVO MARQUEZ F,FRANK E,MOHAMMAD S M,et al.Determining word-emotion associations from tweets by multi-label classification[C].Nebraska:IEEE/WIC/ACM International Conference on Web Intelligence,2017.
  [2]AGGARWAL C C,ZHAI C X.A survey of text classification algorithms[J].Springer US,2012(3):163-222.
  [3]SEBASTINAI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002(1):1-47.
  [4]YEH C K,WU W C,KO W J,et al.Learning deep latent spaces for multi-label classification[J]. 2017(7):12-15.
其他文献
近10年来,浙江农民培训投资加大力度,办学条件得到改善,但供给主体与培训内容相对单一,农民培训有效供给不足。作者认为应通过加快农民培训规划进度、建立稳定资金保障与“管办分
本文以成昆铁路北段为例,分析深堑高堤路基病害的形成原因,并概括为重力崩塌类和亲水性饱水坍垮类两种形成机制,论述路基病害防治研究的迫切性。
沪宁高速公路在不阻断交通的情况下实现由双向四车道向双向八车道扩宽,介绍路面工程中的病害调查、老路铣刨路面底基层(基层)、沥青路面拼接施工的工序、工艺和过程。
海滩岩为热带、亚热带地区砂质海滩上由碳酸钙胶结潮间带沉积物形成的一种海滩相沉积岩,为海滩相低温低压胶结成因的岩石,其广泛分布于我国南海的珊瑚岛礁及沿岸地带,对其岩
期刊
振冲碎石桩是一种加固处理软弱地基的有效方法。目前,在公路工程软基处理中较少使用。为推广该法,通过工程实例介绍了振冲碎石桩处理软弱地基的施工工艺、技术要求和质量检测。
论文在线程、多线程概念的基础上,通过对Java语言在多种不同平台环境下的不同表现进行阐述和分析,讨论了引起各种不同表现的根源本质。
数学思想,是指现实世界的空间形式和数量关系反映到人们的意识之中,经过思维活动而产生的结果。对高职院校的学生而言,在教学内容的安排上,应尽可能地降低抽象性,减少不必要的理论
介绍北京地铁10号线苏州街站至黄庄站区间单孔三线大跨隧道PBA施工技术,论述PBA法原理和特点、施工步序,分析总结了PBA法取得的主要技术成果,为类似工程施工提供借鉴和参考。
本文根据广元机场场道高密度石方振碾压法试验与施工实验,介绍石质填料或以石方为主的石混合填料、重型振动碾压法施工工艺、主要技术参数,分析了填料了含水量、虚铺厚度、碾压
文章给出了一种邮件监听与阻断系统的实现方案。在给出系统的体系结构的基础上,介绍了有效发现特定电子邮件的方法,基于文本论点倾向判别的邮件内容分析以及用于网络监控的可靠