【摘 要】
:
提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-S
【机 构】
:
上海交通大学计算机科学与工程系 上海 200030
【出 处】
:
2005第一届中国分类技术与应用研讨会(CSCA)
论文部分内容阅读
提出了一种新的解决多标号文本分类问题的方法.对于一个K类多标号问题,首先采用"一对其他"的问题分解方法将原问题分解为K个两类问题;然后按照最小最大模块化支持向量机(M3-SVM)的"部分对部分"问题分解方法,再对这些两类问题进一步分解.这种方法的特点是能将大规模、训练样本极不平衡的两类问题分解成用户希望的任意大小的相对平衡的两类问题,并能容易地实现并列学习.对读卖新闻日文数据集和路透社英文数据集进行了文本分类实验,实验结果表明,该方法比传统的方法具有更好的泛化能力和更短的训练时间。
其他文献
迄今,多生物识别系统中识别算法的选择性融合问题的研究没有得到应有的重视.现有的大多数多生物识别系统都是使用某些融合规则融合2~3个可用的识别算法.虽然已有人尝试过多种
在自动指纹识别系统当中,因为系统中指纹模板包含的信息不全或者信息的不准确导致系统产生错误的拒绝或是错误的匹配.因而如何改进模板的质量,也就是模板增强对于一个自动指
虹膜识别、指纹识别、人脸识别、声音识别等生物识别技术得到了迅速发展,开展了一种新的生物识别技术研究:眼底血管骨架形状的生物特征分类和识别.采用眼底的绿光灰度图像,进
本组 15 3例 ,除 2例因他病住他科外均为门诊病人。其中男 92例 ,女 61例。年龄 17~ 68岁 ,平均 4 4 .5岁。外痔 10 1例 ,含血栓性外痔 2 0例。混合痔 5 2例 ,含环状混合痔。
从PDB数据库提取出441组蛋白质序列集,其中每组均含有较长的公共子序列.利用蛋白质的公共子序列作为网络的输入,一致二级结构序列作为神经网络的预期输出,对其三态的预测精度
基于语义的图像检索的关键是图像语义的获取.图像语义获取的现有方法都是针对一些特例图像进行的,没有考虑不同用户对图像语义和图像语义之间内在关系的不同理解.提出一种基
7名患者首发症状均以精神障碍为特点 ,精神障碍发生后出现典型低钙症状的时间长者 5个月 ,短者 3天 ,典型病例报告如下。例 1:男 ,2 0岁 ,某卫校学生 ,就诊前 5个月开始阵发
建设工程造价,一般是指某项工程建设所花费的全部费用,即该建设项目有计划地进行固定资产再生产和形成相应的无形资产和铺底流动资金的一次性费用总和.
针对快速多角度人脸识别问题,提出了一种利用支持向量机实现迭代特征选择的方法.根据特征选择和多类分类任务之间的统计关系,将这两个任务集成到一个统一的框架中,从而更有效
随着互联网的飞速发展,网上文档的数量激增.文本分类是对这些文档进行有效组织和挖掘其相关信息的一种重要的文本挖掘方法.针对中文文本分类的任务,提出了一种简单高效的特征