基于过滤技术的投诉信息智能分析与实现

来源 :沈阳理工大学 | 被引量 : 0次 | 上传用户:xyc657924564
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以建立在统计理论基础上的Bayse分类算法在短信过滤中的应用策略为依据,把投诉平台中针对不良短信的投诉信息作为研究对象,对它们进行智能化的分析与研究,用类别明确的投诉信息指导数据分析的进行,从这些投诉信息中提取垃圾短信的特征,并用于类别未知的投诉信息的分析,最后将整体分析结果以表格形式,提交给相关处理部门作为处理依据,以解决人力对突发性的、大量的举报信息的分析难度。现有短信过滤系统,实际是对以关键词为依据的文本分类的扩展,因此,同样存在文本分类中所具有的缺点:使用内容固定的词典提取关键词,不能适应词的灵活变化;逐条取样分析生成分类器,当测试数据与样本存在差异时,分类器的准确性得不到保证;在整体角度上保证系统的可靠性,没有考虑到关键词提取过程中的风险,因此,从系统的灵活性、通用性和精度三方面对现有过滤策略进行完善,提出了可行有效的解决方法,主要研究内容如下:(1)系统的灵活性:①基本关键词的提取:将基本的最长匹配分词技术与字符串的模糊匹配相结合,仅当基本匹配和模糊匹配同时失败时,才寻找次长词。②提取特征词:将现有短信过滤中的降维思想与文本分类中的类内集中度、类间分散度和类内平均度及加权求和思想相结合,以此提高词对分类贡献所具有的准确性和分类规则的全面性。(2)分类器的通用性:应用概率论中的随机抽样理论采集样本集,避免分类器过分拟合样本数据,使其具有通用性。(3)分类器的准确性:将两类分类问题中使用的最小风险思想进行如下扩展,以使系统所具有的风险最小化:①将它用于多类分类问题;②关键词的提取。基于上述对投诉信息智能分析策略的研究,实现了灵活、高效、准确率高的投诉举报平台系统,经实验数据测试,证明在上述三方面较以往的策略确实有所改善。
其他文献
传感器网络是一种无线网络,它们广泛应用于环境监控、目标跟踪、建筑物安全监测、农业精细化耕种、活火山监测、运输业监控、人类活动监控以及其他监控领域。传感器网络的数据
万维网产生之后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成了规模庞大的数据库。面对如此庞大的数据库,寻找真正想要的信息无异于大海捞针。如何发现大
随着软件系统需求的不断变化,软件系统也需要随之更新。对于静态体系结构的软件系统而言,软件扩展、更新和维护需要系统停止运行,这将为软件系统带来高额的代价。在运行时可以动
数据仓库查询一直是数据库领域的研究重点。近年的研究发现列存储体系仅从磁盘或内存中读取与查询相关的列,相对于行存储来说,更适合OLAP、数据仓库等查询密集型应用。作为一
作为网络应用服务中最关键的设备,服务器的安全、高效运行显得至关重要,目前,服务器管理方式主要有人工管理、监控软件管理、KVM管理、专有工具管理等,以上几种方式均存在着
随着网络的发展和信息化进程的加快和深入,越来越多的电子商务网站的出现成为一种新的趋势,而且随着这样的网站的规模越来越大,网站的数据量也越来越多,致使用户要在这些数据中找
近年来,随着传感器技术、通信技术、嵌入式和分布式计算技术的快速发展和日益成熟,无线传感器网络开始在世界范围内出现。传统的数据库管理系统适合处理有限存储数据集的一次
基于NAND Flash芯片的固态盘具有非易失、随机读性能好、抗抖动且能耗低的优点。但是NAND Flash需要擦后写,并导致高延迟的垃圾回收过程,这一过程中芯片不能响应读写请求,导
当前,中国高速铁路的建设正处于快速发展时期。CTCS-3级列控系统是中国列车运行控制系统(Chinese Train Control System,简称CTCS)的重要组成部分,基于GSM-R无线通信实现车-地信
近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语