基于聚合词树匹配的证券信息敏感词过滤系统设计与实现

来源 :广西大学 | 被引量 : 0次 | 上传用户:SONGZHIQIANGAAAA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
证券公司从股票交易的各种通知到对客户的日常关怀,都会产生大量的交互信息,这些信息通常以短信的方式进行推送,在推送给客户之前需要对信息进行敏感词过滤,以避免不良短信大规模下发造成的负面影响。本文对一种基于聚合词树匹配的敏感词过滤方法进行研究并实现。该方法分为敏感词库初始化与敏感词匹配处理两个阶段。在初始化阶段将敏感词库中的每个词条按照聚合词方式建立词链,多条词链聚合成一棵词树并装载到缓存。敏感词匹配阶段则在完成初始化之后读取待匹配信息,顺序扫描其中的每个字,判断是否匹配敏感词树中的词链,匹配命中后在缓存中进行计数,当计数达到阀值后触发告警。本文将此过滤方法优化后应用于大规模短信处理场景,在敏感词初始化阶段引入多线程处理机制并将聚合词树进行缓存,同时把待过滤的目标短信通过取模进行分块处理并存入缓存中,这样匹配阶段都在内存中执行,获得良好的性能。在此基础上,本文设计一个基于聚合词树匹配的敏感词过滤系统,并进行了系统需求分析、总体架构设计、数据结构设计等,最后介绍了系统的实现和测试情况。系统应用和测试结果表明,所提出的证券信息敏感词过滤方法能够为券商的IT系统提供一种良好的数据安全预警机制。
其他文献
量子秘密共享是量子通信的重要研究领域。相较于经典秘密共享,量子秘密共享在安全性上有着巨大优势:它的安全性不基于计算复杂性,而是由量子力学原理来保证。因此,在原理上,
目的:在临床治疗及动物皮肤创伤缺损模型中应用人工真皮(Artificial dermal template,ADT)覆盖创面,观察其诱导皮肤及皮肤附属器再生修复的情况,并做进一步研究。方法:动物模
传统的地球物理反演方法是在正则化理论基础上,通过引入模型长度最小或者最大平滑稳定泛函等来实现的,然而这些传统反演方法均不能清晰的反映真实地质构造。OlegPortniaguine
研究目的:转录因子Sox2在胚胎干细胞的自我更新和全能性的维持中起着重要作用,并参与多种组织和器官的形成,而Sox2是否参与腭的发育及其机制并不清楚,本文的研究目的:(1)检测
与传统激光器不同,随机激光器利用无序增益介质的多重散射形成相干光,并不具备一般的谐振腔,因其特殊的物理性质和潜在的应用而受到广泛关注。自2010年Turitsyn等人首次提出
解析函数是复分析中一个重要的研究对象,此类函数具有许多有用的性质,如:唯一性,积分与路径无关,延拓性等.作为解析函数的推广,拟共形映射是由Grotsch于1928年在研究Riem ann
近些年来,多智能体系统的分布式控制问题一直是控制理论中一个热门的研究课题,主要由于在众多领域都有着广泛的应用,例如无人驾驶飞行器的编队控制、群集、分布式传感器网络
纳豆的发酵工艺条件十分成熟,但因其具有刺鼻的氨味不被中国消费者所接受。本研究使用嗜酸乳杆菌与纳豆芽孢杆菌的融合子进行纳豆发酵,优化发酵条件,旨在保留纳豆发酵过程中
胫骨软骨发育不良(TD)是一种伴随着肉鸡快速增长而发生在鸡胫跗骨和跗跖骨近端的骨骼性疾病,类似于哺乳动物骨软骨病的骨骼畸形。本试验课题组前期应用基因芯片技术发现细胞
炼厂生产与有色金属加工均属于冶炼过程的典型代表。冶炼生产过程通常包括物料流的混合、物理或化学加工反应、物料的存储等。冶炼过程中的物料流调度和运行优化可提高生产效