一种基于二元模型的分层文本过滤方法

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户：winterryliang

【摘要】

：

提出一种基于二元模型的分层过滤策略的中文文本过滤方法。首先,在非法文本集中使用文档频率和卡方统计相结合的方法抽取非法关键词集合,并根据制定的策略,筛选出非法文本和一些包含非法关键词的合法文本;其次,在筛选出的文本中,选取包含非法关键词的二元词串作为特征集合,以卡方统计方法对特征进行评估,选取预定数目作为结果的特征子集,使用支持向量机分类器过滤非法文本。实验表明提出的过滤方法的准确率、召唤率和F1的

【作者】

：

周聚李培峰朱巧明

【机构】

：

苏州大学计算机科学与技术学院,苏州大学江苏省计算机信息处理技术重点实验室

【出处】

：

计算机应用与软件

【发表日期】

：

2011年07期

【关键词】

：

文本过滤卡方统计关键词抽取二元词串 Text filtering Chi-square statistic Keywords extract Bigram

【基金项目】

：

国家自然科学基金（90920004 60970056 60873150）, 江苏省自然科学基金（BK2008160）, 江苏省高校自然科学重大基础研究项目（08KJA520002）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

基于SOA的数据挖掘原型平台的设计与实现

针对各类中小型企业在经营管理和决策制定过程中所提出的信息管理分析与辅助决策的实际需求,考虑到目前信息系统领域中已有的商用数据挖掘软件/工具中普遍存在的功能耦合性强、资源共享度低和可扩展性弱等问题,结合面向服务的系统体系架构SOA(Service-Oriented Architecture)的开放性、复用性、自治性和平台无关性等特点,提出了基于SOA的数据挖掘原型平台的设计和实现方案。基于Open

期刊

数据挖掘SOAOPENESBData mining SOA（Service-oriented architecture） Open ESB

拒不支付劳动报酬罪之实务解构

刑法修正案（八）在破坏生产经营罪下面又制订了一个补充性的规定——拒不支付劳动报酬罪，至此，欠薪行为经历了由民法、行政法到最严厉的刑法的调整过程。在对劳动报酬权与劳动报酬

期刊

犯罪客体拒不支付所有权犯罪数额crime object refuse to pay ownership the amount of crime

一种基于二元模型的分层文本过滤方法

其他学术论文