【摘 要】
:
网络信息量的指数增长对信息检索提出了更高的要求。为方便信息检索,有必要先对海量的电子信息按其内容加以分类。实验室以往的研究是对自动分类作初步的尝试,因此只进行单层
论文部分内容阅读
网络信息量的指数增长对信息检索提出了更高的要求。为方便信息检索,有必要先对海量的电子信息按其内容加以分类。实验室以往的研究是对自动分类作初步的尝试,因此只进行单层次分类研究,对类别体系没有做过深入的研究。考虑到当类别个数比较多的时候,提取模型的时间耗费巨大,而且在对新文档进行分类时要与所有的类模型进行比较,这显然很不经济。因此本论文在对自动分类技术进行深入研究的基础上,结合实验室原有的单层次的分类成果,实现了一个多层次的中文文本自动分类系统,并在特征加权和维数缩减方面等方面做了一定改进。一定数量的排列有序的特征生成了一篇文档,也决定了它的类别。特征提取的好坏直接影响到分类器的设计及其性能。如果提取的特征对于不同类别的差别很大,就比较容易设计出性能较好的分类器,因此需要对一些重要度高的特征作加权处理。同时,文本分类需要将一般的样本空间变换到特征空间,此时特征空间的向量维数一般都高达几千维甚至数万维,计算量相当大,需要通过特征选择降低维数,以简化计算。本系统采用了传统的反文档频率算法与特征的类别分布信息相结合的新算法(特征项在类间及类内的分布信息)对特征项作加权处理。针对有些频率很低但重要度却很高的特征项的特点,本系统提出了低频高权特征的概念,并为每个类别建立低频高权特征集。本系统在对特征进行综合加权并通过阈值筛选后,进一步通过特征重要度测试进行又一轮的特征筛选,在基本不影响分类精度的前提下实现特征空间维数的进一步下降。实验证明,多层次的分类算法较以往的单层次的分类系统相比,在分类的精度和速度上都有明显的提高,改进的特征加权算法和维数缩减方法也有效地改善了分类器的性能。
其他文献
膨胀性能是高放废物处置库缓冲材料的关键参数之一,缓冲材料的膨胀性能与处置库功能的稳定性密切相关,准确地预测评价膨润土膨胀性能具有重要意义。为了研究缓冲材料膨胀性能
目的探讨外剥内扎术(MMH)联合自动弹力线痔套扎术(RPH)治疗混合痔的临床效果。方法选择2015年4月至2017年4月本院收治的90例Ⅲ~Ⅳ度混合痔患者为研究对象,随机分为观察组和对
通过对煤矿企业生产过程中“三违”的危害及产生的原因进行分析,找出防治三违的办法,以利于煤矿的安全生产。
本文重点从临港新城与奉贤区的区位特征着手,研究两物流园区在区位上的优势;通过两园区的物流需求状况调查,研究其在物流区域合作与服务中的功能定位及发挥的作用;实地了解两物流
本文对中国城市基础设施资本存量与城市经济增长之间的关系进行定量测度。在采用永续盘存法对中国1998-2014年225个地级及以上城市的基础设施资本存量进行测算的基础上,运用
文章是在文献[1—2]基础上,为促进供应链和谐发展,对寻求最佳柔性水平进行了深入展开.进一步提出了供应链最大限度边际的具体算法。
欧洲家庭法协会(CEFL),以协调和统一欧洲家庭法为己任,自2001年成立以来着手对欧洲传统家庭法领域展开实体法协调的尝试。在离婚、离异配偶间扶养、父母责任等家庭法领域起草
目的检测放射性肺损伤大鼠血清肿瘤坏死因子α(TNF-α)水平变化,并探讨其意义。方法 90只Wistar大鼠随机分为小分次照射组(A组)、大分次照射组(B组)和对照组。用60Co-γ射线
高中生物是一门实验科学,生物实验是高中生物教学的重要环节,让学生真正做到理论联系实际,观察和实验是生物科学的基本研究方法。在强调素质教育的今天,生物实验显得尤为重要
缺乏规范的、严谨的研究方法,已成为制约我国公共管理学术研究质量的提升和学科进一步发展的瓶颈。本文从公共管理学恢复重建、萌芽和成长三个阶段各随机抽取了300篇(实际选