论文部分内容阅读
伴随着移动通信网络的快速发展而滋生蔓延的垃圾短信问题,不仅给许多手机用户的工作和生活造成了困扰和经济损失,也给通信网的运营者带来了压力和挑战。一些不法之徒利用短信廉价、便捷的特点,将其变为营销牟利、违法犯罪的工具,无孔不入的向终端用户渗透。据统计,在2015年内,仅360手机卫士就为全国手机用户拦截各类垃圾短信约318.3亿条,平均每天识别和拦截垃圾短信8720.5万次。因此,通过分析和研究海量的垃圾短信息的文本特点,建立准确有效的违规短信识别、分类和拦截机制,从运营商、伪基站、用户终端等多个环节阻断违规违法信息的传播成为维护社会稳定和人民利益的重要手段。在短信的监管和治理工作中,对短信文本进行合理的分词是识别、分类、拦截等任务的首要前提。常用分词工具因难以适应违规类短信语法不规范,字词多变体,特殊符号混杂等特点,致使分词精度严重下降,难以胜任实际业务需求。本文基于某企业实际项目,通过对传统分词方法的调研和对真实短信文本的分析,将改进的点互信息PMI与本文提出的cross-skip-bi-grams交叉跳跃二元模型相结合,利用加入上下文特征的统计方法来灵活应对短信变体的分词难题;并且基于现实应用场景,系统地提出了最优切分、分词合并、增量训练与反馈训练等方法来提高该分词方法的实用性和鲁棒性。实验结果标明,该方法在违规短信上的分词精确度和召回率较开源工具和传统方法有所提升,并为后续变体识别工作的进行奠定了基础。由于部分类别短信存在特征词多变体的特点,致使监控系统无法在满足关键词覆盖范围和新词时效性的同时准确识别各种字词变体。因此本文结合变体短信分词结果,提出基于语义向量空间的变体识别提取方法。先将分词结果映射到向量空间,通过向量相似度来聚合具有语义相似度的词汇,然后经过过滤提取实现自动发现新变体候选词的功能。同时针对静态训练方法的缺点,提出增量训练模型的方法。通过在真实数据上的空间构建和多个的实例的结果分析,验证了算法的实践效果和模块的基本功能。