网络聊天室内容监控预处理研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:atznm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,网络聊天室以其操作简单、方便快捷、私密性好等优点已经迅速发展成为最普遍的网络交流方式之一。它在为用户带来便利的同时,也为一些别有用心的人进行恶意甚至违法的活动打开了方便之门。因此,对聊天室内容进行监控已成为亟待解决的问题。 对聊天数据进行预处理是聊天室内容监控过程中的基础部分,预处理结果的好坏,直接影响到监控系统工作的稳定性、快速性和准确性。由些可见,针对聊天数据预处理工作的研究是十分重要和必要的。 本文以流行的IRC网络聊天室的内容监控为背景,对聊天数据的预处理技术进行了深入的研究。论文的主要工作与特色有: (1)通过加强的聊天数据时序性启发规则集推断聊天数据的社会网络,并结合用户对话相似性优化社会网络。该方法通过分析用户间聊天对话表现出的时间上的一般性规律,总结出用于推断社会网络的启发性规则集,并根据该规则集来推断聊天数据中包含的社会网络;合并相似用户对话,结合对话内容相似性优化社会网络。 (2)提出了聊天数据中噪声对话的概念,并设计了噪声判断和过滤的方法。该方法根据通过从聊天数据中推断出的社会网络确定用户之间的交流关系;然后通过分析用户对话的数量、时间和对话对象等因素,建立噪声过滤的条件集,并根据过滤条件集遍历社会网络中的每个结点,删除结点的噪声对话和孤立结点。 (3)设计了一种专门针对聊天数据中词汇权值计算的方法。首先通过比较聊天数据集与文本集之间的差别,概括出聊天数据的特殊性,并分析目前监控系统中常用的TF<*>IDF方法计算聊天词汇权值的缺点:然后,针对这些特殊性和不足,提出了一种专门用于聊天词汇权值计算的方法-CDTF*IDF方法。通过实验比较这两种方法,CDTF*IDF方法获得了更高的准确率。
其他文献
随着数据库与计算机网络技术的结合,越来越多的政府、商业、金融等机构和部门将自己的数据库连接到Internet上,数据库受到的攻击越来越多,而传统的数据库防护技术已经不能适
随着计算机和互联网的普及,对软件的安全性和可靠性要求越来越高。安全软件工程通过在软件开发生命周期的各个阶段增加一系列的针对安全的关注和改进,以利于在开发过程中尽可
超分辨率是通过硬件或软件的方法提高原有图像的分辨率。利用一系列低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建。超分辨率重建的核心思想就是用时间带宽(获
ASON(Automatically Switched Optical Network自动交换光网络)赋予了传统光网络前所未有的灵活性和可扩展性,代表了下一代光网络的发展方向。对多种恢复机制的支持是ASON的一
移动电信市场中用户的争夺战愈演愈烈。特别是4G时代的到来,移动电信运营商们更是竭尽所能,可以说是无所不用其极。移动电信用户中集团客户作为具有强烈社会影响力,能够为运营商带来丰厚利润的大客户,更是这场战斗中的焦点。同时移动电信运营商的运营系统保留了大量的用户信息资料。这些资料含有丰富的客户信息,通过数据挖掘手段能够有效地分析出用户的需求和对于服务的满意程度。运营商可以运用这些信息制定出有效的营销策略
伴随移动互联网与IP多媒体子系统等业务的蓬勃发展,大量的视频和数据IP化业务不断涌现,通信网络已经从以语音业务为主的SDH网络逐步转变为以IP业务为主的PTN(Packet Transport N
由于无线传输本身的局限性,使得Ad Hoc网络中的通信能够很容易地被截获和分析,因此,匿名机制在Ad Hoc网络当中成为了一个非常重要的安全手段,通过向恶意攻击者隐藏与身份有关
随着网络信息资源呈几何级数增长,使用搜索引擎准确、快速的查找所需信息也变得越来越困难。主要原因有两个,一是传统的搜索引擎很难将所有的网络资源全都覆盖,做到面面俱到;
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这
电子政务作为国家信息化战略的重要组成部分,其安全保障事关国家安全和社会稳定。随着当前电子政务建设的深入,如何保证电子政务系统的信息安全,实现电子政务中业务处理的安全性