【摘 要】
:
从信息粒度的角度分析了文本分类中出现样本错分的原因,同时结合人类认知方式,提出一种基于信息粒度的交叠类文本分类方法。新方法通过转换描述训练样本集合的粒度空间,对训
【基金项目】
:
国家863项目“网络舆情态势分析与预警关键技术研究”基金资助
论文部分内容阅读
从信息粒度的角度分析了文本分类中出现样本错分的原因,同时结合人类认知方式,提出一种基于信息粒度的交叠类文本分类方法。新方法通过转换描述训练样本集合的粒度空间,对训练样本进行重新划分,加大训练样本之间的差异性,以此增加分类的先验知识;根据人类认知方式的特点,在划分后的训练样本集合上构建层次分类器进行分类。实验中采用了不同领域、不同类型的语料库,定量分析了类交叠程度对分类性能的影响并对新方法进行了测试。实验结果表明,新方法能够有效地提高分类性能,尤其适合于类交叠程度较高的情况。
其他文献
在“快闪”传播中国传统音乐文化的项目研究前期,笔者大致确立了传播中国传统音乐文化的“快闪”社团的创建模式。在项目的中后期研究中,笔者则将重点转移至在校园中策划人该
随着我国灾害防治技术的发展,大量公路边坡工程已得到相应的治理。为保证防护工程长期有效,大量的边坡工程将进入到关键养护期。由于边坡工程岩土特性复杂多变,破坏模式、计
<正> 小儿生长痛临床较少见,笔者自1998年以来采用脏腑按摩治疗小儿生长痛取得明显效果。1临床资料 32例患儿均为门诊病人,其中男19例,女13例;年龄最大12岁,最小3岁,其中3-10
近年来,我国城中村改造事业发展迅速,并由此产生了多种改造模式。本文从政府、村民、开发商三方结合模式出发,在分析各自效益的基础上,选取相关指标初步构建了评价城中村改造综合
随着我国经济的飞速发展,我国人口也呈现持续增长的趋势,给我国的土地资源带来很大的压力,一方面是基础建设的增加占用了一部分土地资源;另一方面是在发展的过程中对土地资源造成
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复
证券市场强制退市制度在实践中的运用,有利于促进我国证券市场提高资源配置效率,却实际激化了上市公司实际控制人与中小投资者间的矛盾,将中小投资者置于了更加不利的境地。一方面由于股票发行注册制的推出,上市公司本身所具有的“壳资源”价值大幅降低;在企业经营不善的背景下,上市公司实际控制人失去了通过资产重组等方式退出的可能,更倾向于选择通过财务报表操纵的方式将自身财务风险转嫁给中小投资者。另一方面,当上市公
传感器网络综合了传感器技术、嵌入式技术、分布式信息处理技术和无线通信技术,能够协作地实时监测、感知各种环境和对象,并对监测到的信息进行处理.物体追踪是传感器网络重