【摘 要】
:
在高度信息化的社会中,信息技术与互联网科技更新和普及的速度越来越快,随之电子数据库中以文本形式表现的信息资源也变得更加繁多复杂,基于人处理信息的基本认知,文本自动分类技术成为了处理大规模不断更新的文本数据的关键技术。为了更高质高效地从大量繁杂的信息中获取和利用有价值的信息知识,人们对文本分类技术有了更高的要求,例如更短的运算时间、更高的分类准确度等,对此,除了对分类器本身进行改进和完善之外,特征选
论文部分内容阅读
在高度信息化的社会中,信息技术与互联网科技更新和普及的速度越来越快,随之电子数据库中以文本形式表现的信息资源也变得更加繁多复杂,基于人处理信息的基本认知,文本自动分类技术成为了处理大规模不断更新的文本数据的关键技术。为了更高质高效地从大量繁杂的信息中获取和利用有价值的信息知识,人们对文本分类技术有了更高的要求,例如更短的运算时间、更高的分类准确度等,对此,除了对分类器本身进行改进和完善之外,特征选择技术也可以通过对分类数据进行降维和去噪处理来提高分类预测的效率和精度。本文对现有经典的特征选择方法进行了研究和分析,针对以数字文献为研究对象的文本分类问题,在以文献类别为单位的局部结构上提出了一种新的特征选择方法,该方法综合考虑了关键词和文献类别之间的相关程度及不同关键词之间的共现强度,从“类词相关”和“词词共现”两个方面对关键词的重要程度进行评估。首先,基于随机森林在全局结构上对关键词的分类贡献能力进行量化,其次,利用互信息将原始关键词集合划分为与类别相对应的关键词子集合,再者,采用词共现分析法的思想对不同关键词之间的相关程度进行评价,最后,对文献类别进行两两组合,得到局部结构上的关键词共现强度矩阵,视类别相同和类别不同为两种情况,分别对其中共现强度较高的词对剔除分类贡献能力较弱的关键词,最终将每个类别下的关键词子集合并得到全局上的关键词子集,以此作为向量空间的特征变量得到数据新的文本表示模型。实验中分别选用自采数据和公开数据,分别代表类别均衡数据与类别不均衡数据,对其使用上述提到的局部特征选择方法进行降维并对特征选择前后的数据进行分类实验,比较实验结果证明将该特征选择方法应用于文本分类中可以取得更优的分类结果。
其他文献
考虑碳交易价格、燃料价格、投资成本及政府补贴等不确定性因素,基于实物期权理论构建了燃煤电站碳捕获与储存(carbon capture and storage,CCS)投资决策的四叉树模型,通过算例分
文章结合经济社会发展要求、法律制度、快递行业发展阶段等因素,构建快递企业社会责任评价指标体系;并以评价指标体系为依托,将层次分析法和灰色系统理论相结合,建立了快递企业社
安徽北淮阳地区发育中酸性陆相火山岩相关的金矿化,本次研究选取金矿化相关的新店河英安岩开展锆石LA—ICP—MSU—Pb年代学及LA—MC—ICP—MS Lu—Hf同位素研究。结果显示锆石
普通高校国防教育师资队伍是普通高校教育教学师资的重要组成部分,承担着向大学生传授国防思想、国防观念、国防知识、国防技能等要务.同时也肩负着我国高等教育国防教育学科建
地形是园林的骨架,支撑着园林的各种要素布局规划,服务于整个园林的分区与景观空间的营造,其他造园要素均以地形为依托进行布置。园林的空间感受、功能布局、景观效果、小气候等均与地形息息相关。所以,园林地形的处理是园林规划设计需要首先梳理的内容,也是园林设计中最为重要的组成部分,科学合理的利用和塑造地形可以大大节省时间,减少人力、物力、财力的消耗且可以更好地突出园林主题及烘托氛围。西方园林历史悠久,在地形
通过对秦岭华山松林的野外调查,分析研究了该群落的特征和性质.结果表明:秦岭林区华山松群落主要分布于海拔1 100~2 100 m的中山地带;华山松群落内物种相当丰富,共有81科174属
《中共中央国务院吴于进一步加强人才工作的决定》强调,要『重点培养人的学习能力、实践能力,着力提高人的创新能力』.培养人才的学习能力是建立学习型社会、学习型组织的迫
<正> 本文报告了八例后天性小儿会阴前肛门,均进行了手术治疗,经随访证实近期及远期疗效均满意。后天性会阴前肛门是指直肠肛管术后感染或会阴部外伤后,肛门位置向前移位而言
铁电液晶空间光调制器具有响应快、开关功耗低以及双稳态开关特性等优点,在光学信息处理、光计算和神经网络等应用中有特别诱人的优势。本文介绍了表面稳定型铁电液晶器件的特
我国经济的发展尤其是工业行业的快速发展给环境造成了很大的危害,危险废物污染的治理已经成为环境管理面临的重要问题,是提升环境质量必须要解决的难题。近年来,我国危险废