不良文本及其变体信息的检测过滤技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:zhongxinghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络上出现了各种各样的应用,例如:网络聊天室、在线论坛等。这些网络应用在丰富人们生活的同时,也给网络的健康发展带来了一些危害。用户在使用这些网络应用,畅享网上冲浪的乐趣时,有些恶意用户会发布一些暴力、色情等不良敏感信息。这些不良信息给网络用户特别是青少年用户造成了恶劣影响。现有的网络应用,会对这些不良敏感信息进行过滤,查看关键词列表中是否含有某些关键词,以此来决定是否对某些信息进行过滤。用户发布的不良信息中,如果是规范的词汇,则这样的过滤会取得良好的效果,但是某些恶意用户发布的不良信息,会对不良词汇关键词进行变形处理,以期避免被过滤,比如:不良词汇"shit",常常被写成“shiiiit"或者“$h!t"。针对不良词汇的变体情况,本文设计出了一个相似度计算算法,该算法计算字符串相似度的时候,考虑了语音相似、字形相似以及特殊字符所在位置等因素。该算法在过滤变体关键词的时候,有着很好的识别效果。为了提高检测过滤不良信息的效率,并且能对持续变异的不良词汇进行识别,本文研究了一种C/S架构的过滤模式,终端中安装轻量级的应用,服务端对进化的变体关键词做识别。终端对目标问题进行过滤时,采用层次过滤方式,其特点是占有的资源较少,且能取得很好的过滤效果。现有的内容过滤算法,对变异进化的不良词汇识别度不高。对此,本文通过采用“众包”的方式来对变体关键词进行过滤识别,巧妙地利用“众包”的思想,对变体不良词汇特别是进化的变体不良词汇有着很好的识别效果。实验数据表明,本文提出的不良词汇变形体识别过滤效果要优于其他的方法。
其他文献
一张完全空白的盘片是无法存取的,需要写入伺服信号后,磁头才能通过伺服信号进行定位。当前,对于高存储容量的磁盘的需求已经成为一种趋势,并且期望在同等容量下减小磁盘的尺
流媒体技术受到了人们越来越多的关注,在带来机遇的同时,也带来了挑战。如何提高流媒体系统的并发性能和可扩展性,来为大量用户提供高质量的流媒体服务体验,成为了一个迫切要解决
电子车牌制卡子系统是“青岛海关海运物流监控平台”的一个子系统。所谓电子车牌,就是基于射频识别技术(Radio Freqtzency Identification,以下简称RFID)开发的一种车辆身份自
随着移动技术的迅猛发展,不断有各种新的智能手机应用和服务涌现出来,包括短消息、网络浏览以及各种个人信息管理等多方面的内容。快速高效的中文输入法对于此类应用在中国的
实际业务流程的复杂多变常常使得业务系统的开发、维护过程异常复杂。本文针对复杂应用软件业务流程复杂易变的难题,提出了复杂业务系统描述模型CBSDM。CBSDM将业务系统划分为
移动Agent可以看成是人工智能与分布式计算技术相结合的产物。由于移动Agent计算模式自身的特点,使移动Agent技术在电子商务,远程教育,网络管理等领域有着广阔的应用前景。通
传感器网络由大量传感器节点组成,收集的信息量大,存在冗余数据。传感器节点的计算能力、存储能力、通信能量以及携带的能量都十分有限。数据汇聚是针对冗余数据进行网内处理
第一代 Internet 通过 TCP/IP 实现了计算机的互连:第二代 Internet 以 Web 技术为核心,实现了信息的一对多 B/S 模式的共享;随着信息的爆炸式增长、Internet的壮大及计算机硬件
随着基于P2P(Peer-to-Peer)技术的文件共享软件Napster、Gnutella、KaZaA等在Internet上引发的巨大浪潮,国际国内的学术团队也展开了对P2P技术的大力研究。比起传统的分布式系
垃圾邮件的危害越来越大,已经严重危害了人民的生活和工作。针对垃圾邮件的防范研究是当前的一个研究热点,已经出现了许多优秀的垃圾邮件过滤技术和产品。然而,面对众多的垃圾邮