基于类别层次结构的多层文本分类样本扩展策略

来源 :北京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:davidcao1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大规模多层文本分类训练样本获取代价高、类别分布不均衡等问题,提出并比较几种基于类别层次结构的大规模多层文本分类样本扩展策略,即利用类别层次体系中蕴含的类别名称、描述以及类别间的层次结构关系,从内涵和外延两方面入手构造或扩展类别训练样本。在首次大规模中文新闻信息多层分类评测数据集上,基于外延的局部样本扩展策略取得较好的性能。参测系统在第一级类别和第二级类别上宏平均F1分别为0.8413和0.7139,在10个参赛系统中位列第二。
其他文献
基于安徽省巢湖市狮子口剖面上泥盆统(法门阶)五通组的标本,对龙潭楔叶Sphenophyllum lungtanense Gothanet Sze的叶形和脉式等重要特征取得了新认识。华南晚泥盆世楔叶目的起
利用PCR技术进行了鲇(Silurus asotus)5个地理种群线粒体DNA(mtDNA)限制性片段长度多态性(RFLP)研究.这5个地理种群是长江上游支流(四川境内的攀枝花雅砻江、岷江、自贡、贵州遵义的