中文敏感词变形体的识别方法研究与应用

来源 :湖北大学 | 被引量 : 0次 | 上传用户:zhangwenhan05
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联技术的迅速发展,人们可以随时随地的通过网络来获取时政、经济、娱乐和生活等信息,也能够在网络上快捷方便地进行消息的发布。当用户在享受互联网带来的便利的同时,有些恶意用户会为了自身的利益会发布一些不良的敏感信息,例如包含暴力色情、涉及政治敏感、带有民族歧视、影响国家社会稳定和网络电信诈骗等信息。如果这些敏感信息没有得到准确的发现和及时的处理,会让不法分子趁虚而入,极其不利于社会和国家的长治久安和健康发展。为了净化和监管我们的网络环境,我们亟待需要对网络中含有敏感信息的文本进行识别和处理。目前大部分对于敏感词识别方法的研究都是将现有的敏感词表和待检测的文本进行对照检索,该方法虽然对于文本中使用规范汉字的敏感词识别的正确率很高,但其做法过于简单。由于近几年很多恶意发布者为了躲避网络平台的审查,将文本中的敏感信息进行了变形处理,使得网络平台无法识别出其真实含义。因此我们急需研究出可以识别多种敏感词变形体的方法。针对上述问题,本文通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对敏感词的拼音、简称和拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法、字符串的简称识别算法和基于BM的汉字拆分识别算法,使对于敏感词变形体识别的准确率和效率得到了有效提高。实验结果表明,本文所提出方法具有较高的查全率和查准率,并为实际的生产应用提供了真实可行的方法。在识别文本中的敏感词的过程中,需要通过人工对文本进行审查,并过滤掉敏感程度较大的文本,但实现该过程需要耗费大量的人力和物力,产生不必要的资源浪费。为此,本文以前面提出的敏感词变形体自动识别算法为基础考虑敏感词的类别、频繁度、位置以及敏感词在特殊时期性质的变化等因素实现对文本敏感程度的计算。最后,根据计算出的文本敏感程度对文本进行自动审查,该方法能有效降低了网页审查工作量,提高了敏感文本的过滤效率。
其他文献
目的观察小剂量丙泊酚能否有效地对抗卡前列素氨丁三醇注射液所致的不良反应。方法选择美国麻醉医师协会(ASA)分级Ⅰ~Ⅱ级,存在子宫收缩乏力的择期剖宫产患者50例,随机分为A,
现代羽毛球运动诞生在英国,现在盛行全世界。羽毛球运动是一项具有多种功能的时尚运动,具有健身、休闲、娱乐、竞技、交友等特点,羽毛球运动也是一项展现力量美、形体美、艺术美
建立居民健康档案是做好医疗卫生服务的前提和基础。居民健康档案系统的建立不仅能降低医疗成本、提升服务效率与质量,改善医疗卫生服务的供给,还明显促进医疗和公共卫生服务的
结合福建省普通公路建设标准化管理和项目监管的应用需求,开展福建省普通公路建设项目关键数据集中管控业务体系建设,融合互联网+、大数据、物联网等应用技术,构建了一套适用
本研究回顾性分析了142例原发性肾病综合证(NS)患者凝血与纤溶相关指标的变化,并探讨其与一些临床指标的相关性,为临床预防该并发症提供思路。
分析国外轻质结构材料铝合金、钛合金及镁合金的研究现状,重点探讨这几种主流轻质结构材料在国外航空航天、武器装备及舰船上的应用,并例举3种轻质结构材料在各国军事装备上
伴隨族群邊界移動,兩漢北邊防綫不斷變化、調整。武帝時有塞外築城的推進,東漢一世又多弃郡內徙的收縮。西漢、東漢前期,北邊之東北防綫,實際多在漢長城以南的戰國秦長城中段
以白刚玉试验粉尘替代滑石粉 ,并对传统的测尘装置进行了改进 ,较好地解决了对呼吸性粉尘阻尘效率的检验。研制出一种新型高效低阻聚丙烯滤料和新型防尘口罩 ,口罩主要性能参
根据新课程教材的特点,笔者着手从三个阶段进行识字与阅读连环扣的探究,使学生在愉悦的氛围中自觉而饶有兴趣地去识字和阅读。
为促进蓝莓耐高pH种质创新,在pH5.8条件下,以增殖系数为鉴定指标对矮丛、半高从、北高丛3种类型共19份蓝莓品种耐高pH培养基能力进行评价。结果表明:蓝莓耐高pH培养基能力在