一种基于二元模型的分层文本过滤方法

来源 :计算机应用与软件 | 被引量 : 2次 | 上传用户:winterryliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于二元模型的分层过滤策略的中文文本过滤方法。首先,在非法文本集中使用文档频率和卡方统计相结合的方法抽取非法关键词集合,并根据制定的策略,筛选出非法文本和一些包含非法关键词的合法文本;其次,在筛选出的文本中,选取包含非法关键词的二元词串作为特征集合,以卡方统计方法对特征进行评估,选取预定数目作为结果的特征子集,使用支持向量机分类器过滤非法文本。实验表明提出的过滤方法的准确率、召唤率和F1的值分别为:95.65%,84.87%和89.93%。
其他文献
针对各类中小型企业在经营管理和决策制定过程中所提出的信息管理分析与辅助决策的实际需求,考虑到目前信息系统领域中已有的商用数据挖掘软件/工具中普遍存在的功能耦合性强、资源共享度低和可扩展性弱等问题,结合面向服务的系统体系架构SOA(Service-Oriented Architecture)的开放性、复用性、自治性和平台无关性等特点,提出了基于SOA的数据挖掘原型平台的设计和实现方案。基于Open
刑法修正案(八)在破坏生产经营罪下面又制订了一个补充性的规定——拒不支付劳动报酬罪,至此,欠薪行为经历了由民法、行政法到最严厉的刑法的调整过程。在对劳动报酬权与劳动报酬