基于决策树的网页敏感词过滤系统设计

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:rocket830214
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统网页敏感词过滤系统大多是通过对比基于数据库的文本文件实现的,这种方式实时性较差,敏感词语过滤效率低,需要耗费网管人员大量的时间和精力。本文以主动匹配并过滤网页中的敏感词语为目标,实现了文本在上传到服务器之前对网页中的敏感词进行主动匹配与过滤处理,采用决策树方法对含有敏感词的网页文本进行了分类。论文的主要内容有:(1)设计实现了一种基于字典树的网页敏感词匹配及过滤方法。采用Python中的Beautiful soup模块将网页解析为DOM(Document Object Model)文档对象模型,进而抽取出网页中的文本内容。研究了文本中敏感词的检索与匹配方法,设计出了一种基于字典树的网页敏感词匹配及过滤方法,提高了网页文本中的敏感词过滤的正确率和召回率。(2)设计了基于决策树的敏感文本分类器。通过文本的预处理构建敏感文本分类的训练集与测试集,利用中文分词系统构建敏感文本向量空间模型,计算文本集向量空间中词向量的TF-IDF值得到训练集与测试集的权重矩阵,采用了决策树C4.5算法构建敏感文本分类器。(3)使用Python语言实现了网页文本内容抽取,文本预处理和敏感文本的分类。针对网页文本中存在干扰项过多的问题,采用正则表达式去除文本中的特殊字符、将繁体中文转化为简体中文的方法,对网页文本进行了预处理。通过在不同类别的文本中添加敏感词的方法提供了敏感文本训练样本,提取其特征值构建决策树,设置剪枝条件,对样本进行了分类。
其他文献
目的:研究广州地区人群生殖支原体的感染情况。方法:采用Mg粘附因子基因序列合成的引物Mg-Pa-1和MgPa-3,用多聚酶链反应方法对1997年7 ̄11月本地区443例不同人群的泌尿生殖首拭予,在3次不同条件下进行了生殖支
低温生物技术的下一个热点之一是它在神经科学中的应用,本文立足于现代低温生物技术,神经科学,混沌分形等现代工程技术理论,探讨低温生物技术在神经科学上的发展趋势和应用前景,提
目的:报告29例防止食管胃(肠)吻合口瘘,狭窄及反流的临床研究。方法:常规方法行食管,贲门癌切除,采用食管成形,插入胃(肠)腔,胃(肠)包套吻合方法,结果:29例无1例吻合口瘘及反流,只发生1例吻合
川西坳陷上三叠统须家河组是四川盆地最具勘探潜力的层系之一,其形成于晚三叠世四川盆地由海相克拉通盆地向陆相盆地转变的过渡时期,其勘探潜能较大。本文旨在现有研究结论基
南极磷虾生物资源丰富,营养价值高。南极磷虾粉是南极磷虾的主要加工产品,干燥工艺是制约虾粉品质和成本的关键因素。目前国内外关于南极磷虾粉加工的研究主要集中在品质评价、贮藏条件等方面,关于干燥工艺流程与参数优化的研究较少,因此开展南极磷虾粉干燥工艺研究对于南极磷虾加工具有实际意义。本研究以冻南极磷虾为实验原料,预处理方法是流水解冻,蒸汽蒸煮3 min,研究干燥前处理—破碎方法,对南极磷虾粉干燥特性和品
随着全球经济一体化发展趋势不断深化,企业与企业之间的竞争表现得异常激烈,对于石化企业而言,也是如此。石化施工企业在进行油田地面建设及长输管道等建设中,经常面临竞标、
分析了M17F合金无余量精铸空心气孔形成规律,发现,型芯上的积碳是形成大面积蜂窝状气孔的主要原因;使合金元素Ta提高了融合金的化学活性,是形成气孔的合金元素;型芯中锆英石的分解产物无
城市滨水绿地是城市绿地系统的重要组成部分,也是城市滨水区开发建设的重点对象。从客观上来讲,滨水绿地景观包含两部分的重要内容:一是滨水,二是绿地景观。城市滨水绿地是城
教育信息化不仅为应用型本科院校创新型人才培养提供了广阔的教学途径,在打造学习者多元化的知识结构体系、培养学习者创新思维力、工程思维力、发散思维力和理性思维力,激发
我院1996年1月~1998年5月收治的急性氟乙酰胺中毒性脑病38例报告如下:1 临床资料本组男16例,女22例,年龄1~86岁,平均年龄27.2岁,38例均为消化道摄入,就诊时间最早为服药后10min