基于权重均值的不良网页过滤算法研究

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:pptcwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的网页权重过滤算法中的权重大都根据词频统计方法来确定,该方法不能很好地表达关键词对主题的表征程度,且易被某些网站利用反关键字过滤策略逃避检测。在传统方法的基础上,设置加权的关键字矩阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出基于同类词权重均值的关联过滤算法。试验结果表明,该算法过滤更为高效,并且能够很好地应对色情网站的反关键字过滤策略,尤其在色情与医学网页的分离上有明显的效果。
其他文献
矿热炉是通过炉内三相电极产生电弧热与电阻热对炉料进行加热,使炉料产生氧化还原反应来冶炼铁合金。目前大部分冶炼企业都采用一次侧电流人工调节矿热炉三相电极升降,这种方
以辽宁某低品位铁磷矿(P2O5品位2.36%)为研究对象,通过研究新型捕收剂各组分药剂配比,探索对该低品位磷矿捕收性能更好的组合捕收剂。在磨矿细度-0.074mm占45%的条件下,使用
为了发挥差分进化和粒子群优化算法各自拥有的特点,并克服自身存在的问题,提出了一种混合优化算法(简称DPA)。该算法首先利用差分进化的变异和选择算子产生新的群体,然后通过使用
内存数据库数据主拷贝常驻内存,活动事务只与内存打交道,而由于内存的易失性,内存数据库的恢复成为内存数据库的核心技术。讨论了内存数据库的恢复技术,考虑所研究的系统环境
本文首先界定了农村老年人对居家养老服务的现实需求,并分析了农村发展居家养老服务面临政府资金投入不足、缺乏专业的农村居家养老服务队伍等困境。最后,为发展河北省农村居
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法。该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面