【摘 要】
:
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的最有效平台,各种数字化信息每天以极高的速度增长,面对如此巨大的信息,人工分类已经无能为力,计算机自动分类已成为网络时代的必然选择。目前对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择一直
论文部分内容阅读
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的最有效平台,各种数字化信息每天以极高的速度增长,面对如此巨大的信息,人工分类已经无能为力,计算机自动分类已成为网络时代的必然选择。
目前对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择一直是文本分类的关键技术和瓶颈技术,因此,对于特征选择算法的研究是十分必要的。
本文对文本分类中所涉及的各项技术进行了较全面的阐述,主要对当前文本分类中的特征选择算法的性能及优缺点进行了分析,指出了现有方法存在的一些问题,并提出了相应的改进算法。本文的主要研究工作如下:
(1)针对文档频数和互信息方法可能选择与各个类别相关度都较大、但在类间分布比较均匀的特征的问题,本文提出了“差分贡献”的思想,指出对两个类别“贡献”都大的特征并不意味着对这两个类别的分类能力也强,而贡献差大的特征却往往具有强类别区分能力。基于这个思想,对传统的文档频数和互信息进行了改进。
(2)针对现有特征选择方法均未考虑词频因素而导致特征的真实价值无法被评估的问题,本文结合差分贡献的思想,提出了一种基于词频统计的特征选择方法。
(3)针对现有特征选择方法未考虑特征间的关联性而导致无法处理特征冗余的问题,本文提出了一种基于聚类的特征选择方法,通过将特征聚类,簇内特征间都非常相似,这些特征在类别区分能力上往往也是类似的。因此,我们取每个簇的中心代表整个簇,将簇中的其他特征过滤掉,这样特征集的冗余性就大大降低。
最后,本文通过实验证明,这三种改进的方法使得文本分类的正确性得到了有效地提高。
其他文献
贫困问题长期困扰着农村经济全面发展,因病致贫、因学致贫是加速中国农村贫困不断恶化的两大主要原因。挣脱贫困,从改善健康、教育所体现的人力资本来促进农户收入增加利于贫困减少,诸多学者也证实这一点;但人力资本不平等引起农村家庭收入的变化对农村减贫的影响却时常被忽视。基于中国健康和营养调查(CHNS)数据,本文综合利用Apouey不平等指数与Mincer基础扩展模型,通过固定效应和分位数回归方法,立足于收
为摆脱中国严峻的水污染困境,中央政府近年来大力推进河流水质信息公开制度的建立与完善。同时,中央政府在大多数水污染治理和水资源管理政策中也设定河流水质标准作为奖惩地方政府的依据。然而,由于中国流域水环境的跨界外部性特征与复杂大系统特性,在河流水质信息的公开中,地方政府作为水质信息最邻近的获取方,其目标利益函数往往与中央政府并不一致,二者的利益博弈极有可能导致严重的道德风险问题。 基于国内外已有研究
在医学、生物学、计量经济学、金融学以及农业等领域的研究中,通常会遇到面板数据。在对面板数据进行统计建模时,学者们提出了面板数据的非参数回归模型。它是面板数据模型中非常重要的一种统计模型。在解决实际问题时,面板数据非参数模型更接近真实模型,更能充分利用数据中所提供的信息。回归样条线混合效应模型,是众多面板数据非参数模型中可操作性最强,应用最为广泛的一种模型。 全文共分为五章。第一章是绪论部分,阐述
十八届五中全会上中国共产党确定了“十三五”规划目标,明确到2020年要实现全面建成小康社会的战略目标。“十三五”时期是决定我党能否完成全面建成小康社会的关键时期。这一时期,中国经济进入稳增长的新常态,然而经济下行压力日益加大,与此同时人口红利渐失,劳动成本不断上升,人均收入也正处于跨越“中等收入陷阱”的关键阶段,这些因素的叠加使得我国经济的持续发展面临着巨大的挑战。当前我国传统企业生产经营困难,民
该文从国外银行、国内银行的信贷风险管理以及中国商业银行本身存在的风险管理问题来论述加强中国商业银行风险管理,改进中国商业银行风险管理手段的必要性和迫切性.同时,该文也对如何提高中国商业银行风险管理手段提出了建议.全文共分四个部分:第一部分论述了商业银行信贷风险管理理论及中国商业银行目前风险管理现状.第二部分着重阐述了现阶段中国商业银行风险管理中存在的问题及成因.第三部分介绍了西方发达国家银行先进的
被誉为“东方经验”的人民调解制度是经历了新民主主义革命和社会主义革命与建设的实践检验,不断发展和完善起来的一项具有中国特色的社会主义法律制度,它在我国有着深厚的社会、文化基础,得到了中国传统文化和整个中华民族的心理支持。长期以来人民调解制度以其解决民间纠纷的灵活性,防止矛盾激化的合理性赢得了认可,是寻求诉讼外纠纷解决方式、构造多元化纠纷解决机制、最大化节约社会资源的理想选择,也是我国多元纠纷解决机
第三人侵害债权在我国的研究并不充分,但相信作为一种特殊的侵权,必然会出现在不久的将来的立法中。本文从债权是否具不可侵性开始,探讨第三人侵害债权的法律依据,特殊的构成要件和侵权人的法律责任,旨在为催熟该理论和为解决一些实践问题出一点绵力。第三人侵害债权是社会经济发展的新现象,承认债权具有不可侵性,并不违背债权的相对性的原则。与一般侵权一样,侵害债权应受侵权行为法的调整。第三人间接侵害债权尤应引起重视
鬻熊是颛顼高阳之后,后因商王朝的追杀被迫离开中原不断迁徙,最后在楚地定居下来,成为楚之祖。鬻熊在武王伐纣之後不久即去世,去世时未及受封。 《鬻子》、《鬻子説》在东汉以前确实存在。《鬻子》一书有可能是鬻熊所作,这是他的思想总结和他的政治诉求;也可能是托名鬻熊所作,因为当时托名之风盛行,鬻熊事迹流传于民间,他又有政治思想,托名鬻熊合情合理。《鬻子説》是关于鬻熊的故事集,是后世所加。 逄本《鬻子》不
《管子》所涵的中央官制,主要是以君主制为中心,以中外朝制为首脑,以内外宫制为辅弼的中央政府体制。由君主、女主制的流变,探求朝官、宫臣的制衡,有一定借鉴意义。其中央官制,反映了中朝、内宫分治的总体趋势,可概括如下:总体特色是,中朝、内宫的隐性制衡;三个特点是,君、相主导的“霸政”雏形,三卿、五官朝政制度的初步形成,文官、武士制度的合而将分。 《管子》所涵的地方官制,主要是以军赋制为组织,以乡遂官制
随着数字水印技术的发展,数字视频水印技术已经成为一种保护多媒体视频产品版权归属的有效手段。然而,在实际应用中,水印技术的鲁棒性已经不能仅仅局限于抵抗常见视频水印攻击,而且对一类特殊的攻击方法——几何攻击,也必须具有抵抗力。本文主要研究了数字视频水印几何攻击,并探讨了抗几何攻击的视频水印版权保护和信息隐藏技术。首先,将几何不变区域的方法引入视频水印算法中,结合小波变换提出一种抗几何攻击的视频水印算法