基于类别层次结构的多层文本分类样本扩展策略

来源 :北京大学学报：自然科学版 | 被引量 : 0次 | 上传用户：davidcao1980

【摘要】

：

针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称

【作者】

：

李保利

【机构】

：

河南工业大学计算机科学系

【出处】

：

北京大学学报：自然科学版

【发表日期】

：

2015年2期

【关键词】

：

多层文本分类大规模中文新闻分类中文新闻信息分类类别层次体系 hierarchical text classification large scale C

【基金项目】

：

河南省基础与前沿技术研究项目（112300410007）, 河南工业大学高层次人才基金（2012BS027）资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。

其他文献

龙潭楔叶的再研究——兼论华南晚泥盆世楔叶目的演化

基于安徽省巢湖市狮子口剖面上泥盆统（法门阶）五通组的标本,对龙潭楔叶Sphenophyllum lungtanense Gothanet Sze的叶形和脉式等重要特征取得了新认识。华南晚泥盆世楔叶目的起

期刊

晚泥盆世华南楔叶目龙潭楔叶五通组Late Devonian South China Sphenophyllales Sphenophyllum

鲇16SrRNA基因扩增片段的RFLP研究

利用PCR技术进行了鲇（Silurus asotus）5个地理种群线粒体DNA（mtDNA）限制性片段长度多态性（RFLP）研究．这5个地理种群是长江上游支流（四川境内的攀枝花雅砻江、岷江、自贡、贵州遵义的

期刊

鲇线粒体DNA16SrRNA多态性Silurus asotus mitochondrial DNA 16SrRNA polymorphism

基于类别层次结构的多层文本分类样本扩展策略

其他学术论文