论文部分内容阅读
随着互联网通信的不断发展,传统通信业受到了互联网的巨大冲击,但短信作为对通信条件要求非常低的传统通信手段,在日常生活中仍然有较多的使用场景。自从短信出现开始,商户就开始利用垃圾短信进行营销,之后逐渐有不法分子利用短信进行电信诈骗。随着防诈骗技术的不断升级,电信诈骗也开始出现多个不同的变种。如何低成本、快速的发现电信诈骗、定位电信诈骗并源头预防电信诈骗,一直是一个经久不衰的问题。对此的相关研究,也有广泛深入的应用场景。到目前为止,传统基于频次、互信息的文本分类研究在性能和速度上已经达到瓶颈,而基于最近流行的CNN神经网络的文本分类技术又受制于昂贵的设备,所以如何在保证一定精确度的情况下,开发出一套快捷高效的文本分类系统,满足在电信诈骗场景下的个性化需求,是文本分类系统所要面临的新挑战。本文对文本分类、短信诈骗提取相关技术进行了研究,分析了垃圾短信分类、处理和电信诈骗研究中的热点问题,从如何平衡短信分类速度和准确度的角度出发,设计并实现了基于层次softmax的快速文本分类器HSTC。利用人工标注的垃圾短信样本做监督学习,对海量垃圾短信进行标签聚类,初步定位诈骗类型的短信。然后通过对诈骗类短信的文本特征提取,对最近流行的电信诈骗形式进行精确定位。本文的研究内容和创新工作主要包括以下两点:本文设计并实现了一种基于层次softmax的快速文本分类器HSTC,能够在不牺牲太多分类精确度的情况下,以较快的速度训练出文本分类模型,有效的对海量短信数据进行模型训练和文本聚类。在传统的文本分类方法中,通常分类精确度是较大瓶颈,而对于基于CNN的文本分类系统而言,通常模型训练时间是一个较为严重的问题。HSTC通过单隐层神经网络,在单标签分类这个简单的场景下,结合一些文本分类的常用技巧和思路,实现了在很短时间内做大量数据训练的文本分类系统,并通过某运营商提供的人工标注数据进行验证。实验证明,通过本文实现的文本分类系统,在垃圾短信分类这个场景下,取得了良好的效果。为了更好的满足精确定位新型电信诈骗的需求,最大程度提取出符合“换号诈骗”场景需求的诈骗类短信,以上一步分好分好类的诈骗短信数据作为基础,提出n-邻近词相似文本聚类法,通过对相似文本的相似特征提取,提取出符合“换号诈骗”情景的短信簇,然后通过规则提取出称呼等特性,实现精确定位“换号诈骗”的个性化需求,为某运营商消除新诈骗手段提供了方法和思路。