一种基于粗糙集文本自动分类的改进算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:billdyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类的效果在很大程度上依赖于属性特征的选择。针对传统基于频率阈值过滤的特征选择方法会导致有效信息丢失,影响分类精度的不足,提出了一种基于粗糙集的文本自动分类算法。该方法对加权后的特征属性进行离散化,建立一个决策表;根据基于依赖度的属性重要度对决策表中条件属性进行适当的筛选;采用基于条件信息熵的启发式算法实现文本属性特征的约简。实验结果表明,该方法能约简大量冗余的特征属性,在不降低分类精度的同时,提高文本分类的运行效率。
其他文献
截止8月份,拉萨市共有城乡低保户10200多户、2万余人,前八个月共发放低保金4000多万元。拉萨市现行城镇居民最低生活保障标准为月人均814元,高出自治区标准64元,农村低保年人均39
希夏邦马峰,藏语是“气候严寒、天气恶劣多变”之意,海拔8012米,位于喜马拉雅山脉中段,在西藏聂拉木县境内,东南距珠穆朗玛峰120千米,是一座完全在中国境内的8000米以上的山峰,也是
雀巢公司已经就获得银鹭食品集团(“银鹭”)60%股权签署了合资协议。合并后,银鹭公司董事长陈清渊将继续领导新的合资公司,由于此项交易有待于中国有关政府部门的审批,因此就具体收
贝叶斯网络(BN)是图论和概率论有机融合的概率图形模型。D-分割(directionalseparation)和ud-分割(unidirectionalseparation)是判断贝叶斯网络中条件独立的两个重要的准则。讨论了贝
目的 探讨慢性丙型肝炎(CHC)患者胰岛素抵抗(IR)与抗病毒治疗应答的相关性.方法 随机选择慢性丙型肝炎患者78例,其中联合用药组43例,胰岛素抵抗指数(HOMA-IR) >2;对照组35例,HOMA-IR
当前,培育和践行社会主义核心价值观的宣传教育活动方兴未艾。对核心价值观的意义和内容作出科学而通俗的阐释,是理论工作者的重大职责。由教育部长江学者沈壮海教授主编的《兴
报纸
经济效益审计与政府审计、社会审计不同,它是对企业经营管理状况的内部审计.从一定意义上而言,效益审计也是对企业经营管理工作水准的一次"诊断".鉴于黄金矿山的特殊性,企业
会议
中国造纸业正面临转型之困。工业用纸遭遇不景气的同时,许多企业将目光瞄准了生活用纸,开始调整生产布局。但随着生活用纸领域的竞争骤然加大,过剩之忧已笼罩全行业。行情低迷8
从国内外一些大公司造假账丑闻接连曝光、个别上市公司有"技巧"的核算利润和一些成功的企业的经营活动可以看出,内部控制是现代企业管理健康发展的必要保障.笔者拟结合凌钢集
B037 is of interest because it is both the most luminous and the most highly reddened cluster known in M31.Deep observations and high spatial resolution images