论文部分内容阅读
随着移动互联技术的迅速发展,人们可以随时随地的通过网络来获取时政、经济、娱乐和生活等信息,也能够在网络上快捷方便地进行消息的发布。当用户在享受互联网带来的便利的同时,有些恶意用户会为了自身的利益会发布一些不良的敏感信息,例如包含暴力色情、涉及政治敏感、带有民族歧视、影响国家社会稳定和网络电信诈骗等信息。如果这些敏感信息没有得到准确的发现和及时的处理,会让不法分子趁虚而入,极其不利于社会和国家的长治久安和健康发展。为了净化和监管我们的网络环境,我们亟待需要对网络中含有敏感信息的文本进行识别和处理。目前大部分对于敏感词识别方法的研究都是将现有的敏感词表和待检测的文本进行对照检索,该方法虽然对于文本中使用规范汉字的敏感词识别的正确率很高,但其做法过于简单。由于近几年很多恶意发布者为了躲避网络平台的审查,将文本中的敏感信息进行了变形处理,使得网络平台无法识别出其真实含义。因此我们急需研究出可以识别多种敏感词变形体的方法。针对上述问题,本文通过分析汉字的结构和读音等特征提出了一种中文敏感词变形体的识别方法。该方法针对敏感词的拼音、简称和拆分三种敏感词变形体分别设计了基于易混拼音分组的敏感词的识别算法、字符串的简称识别算法和基于BM的汉字拆分识别算法,使对于敏感词变形体识别的准确率和效率得到了有效提高。实验结果表明,本文所提出方法具有较高的查全率和查准率,并为实际的生产应用提供了真实可行的方法。在识别文本中的敏感词的过程中,需要通过人工对文本进行审查,并过滤掉敏感程度较大的文本,但实现该过程需要耗费大量的人力和物力,产生不必要的资源浪费。为此,本文以前面提出的敏感词变形体自动识别算法为基础考虑敏感词的类别、频繁度、位置以及敏感词在特殊时期性质的变化等因素实现对文本敏感程度的计算。最后,根据计算出的文本敏感程度对文本进行自动审查,该方法能有效降低了网页审查工作量,提高了敏感文本的过滤效率。