基于最小词频阈值的文档特征选择

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:y3434jkhgkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为降低内容无关的特征词对文本分类系统的影响,在对与文本内容无关的特征词进行分析后发现:不相关特征词的词频普遍较低,利用最小词频阈值滤除低频特征可以明显降低无关特征的数量.为此,提出基于最小词频阈值的文档频评估函数.利用该函数选择特征可以有效减少与内容无关的噪声特征,改善分类质量.实验结果显示,几种基于最小词频阈值的文档频评估函数比基于普通文档频的评估函数的分类准确性有不同程度的改进,其中对互信息的改进最为显著,宏平均F1值比词频方法提高40%,比普通文档频方法提高15%~30%.
其他文献
基层社保档案管理工作是建设社会主义和谐社会的重要任务.通过构建完善的基层社保档案管理体系是推动市场经济快速发展的重要力量,也是保证社会稳定和谐的重要安全网.当前我
周×,女,1 4/12岁,生后十小时发现心动过缓(42次/分)及早博,心前区可闻Ⅱ—Ⅲ级收缩期杂音,第一心音强弱不等,可闻大炮音,心电图示:心房率156次/分,心室率40次/分,为Ⅲ度房
目的观察弥散性毒性甲状腺肿(GD)儿童在疾病不同阶段血清IL-10、12水平变化的临床意义。方法采用酶联免疫吸附法(ELISA)测定GD患儿疾病不同阶段(新发病、治疗未缓解、治疗缓
2016年1月3日-1月31日,在长沙市明德华兴中学里的华兴会旧址纪念馆内举办的一个特别的新年画展——“遇见你的路”朱双华老师支教绘画作品展。该画展反映了朱双华老师在邵阳武冈大甸中心小学一年的支教时光。这一年里,朱老师不仅为学校四个年级的600多人上了丰富多彩的美术课,而且还潜心创作了近百幅油画作品。这次一共展出了40余幅作品,大都是写生小品,包括了校园场景、乡村风光、花果蔬菜等田园意趣。朱老师的
随着我国教育新课改的逐步推进,教育专家和相关学者都在研究语文教学的新动向,在全体教育工作者的共同努力下,我国语文教学的思路得以拓宽。当前很多的教育工作者都提出语文
本文通过对语言与文化,语言教学与文化教学之间关系的分析阐述了文化教学在语言教学中的重要性,从而为英语教学实践提供一些文化层面上的见解和思索。 This article expound
本文对我国目前煤炭企业的财务风险进行了分析与识别,并总结了福煤集团防范财务风险的八项创新举措。 This article analyzes and identifies the current financial risks
所谓断失翼煤层的寻找,是指地质人员在井下利用各种手段来确定断层的性质和断距,从而为巷道掘进指明前进方向的工作。当煤矿巷道掘进遇到落差大于巷道高度的断层时,就会出现
企业只有对供应商、竞争对手、潜在的竞争对手、替代品生产商和顾客的信息清楚了解,并能系统分析理出层次,找出主要矛盾,才能在市场竞争中百战不殆.也只有掌握了这些信息,企
1999年1月18~19日,Toulouse,France膜过程在医药工业和精细化学中的高级讲座内容:该讲座是专门针对在这些领域中从事研究或生产的工程师,膜领域中的研究人员以及博士生或博士后举办的.第一天将由大学教师和
期刊